WO2015166814A1 - 音響信号処理装置、音響信号処理方法、および、プログラム - Google Patents

音響信号処理装置、音響信号処理方法、および、プログラム Download PDF

Info

Publication number
WO2015166814A1
WO2015166814A1 PCT/JP2015/061790 JP2015061790W WO2015166814A1 WO 2015166814 A1 WO2015166814 A1 WO 2015166814A1 JP 2015061790 W JP2015061790 W JP 2015061790W WO 2015166814 A1 WO2015166814 A1 WO 2015166814A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sound source
virtual sound
acoustic
band
Prior art date
Application number
PCT/JP2015/061790
Other languages
English (en)
French (fr)
Inventor
健司 中野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/305,694 priority Critical patent/US9998846B2/en
Publication of WO2015166814A1 publication Critical patent/WO2015166814A1/ja
Priority to US15/972,295 priority patent/US10462597B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present technology relates to an acoustic signal processing device, an acoustic signal processing method, and a program, and more particularly, to an acoustic signal processing device, an acoustic signal processing method, and a program for realizing virtual surround.
  • the gain of a sound image localization filter that generates an output signal to one speaker is significantly higher than the gain of a sound image localization filter that generates an output signal to the other speaker. If it becomes smaller, the effect of sound image localization is reduced.
  • the present technology improves the sense of localization of the sound image at a position off the left or right from the listener's midline.
  • the acoustic signal processing device relates to the first input signal that is an acoustic signal for the first virtual sound source that is off to the left or right from the median plane at a predetermined listening position.
  • a first transoral processing unit that generates a second acoustic signal and a first auxiliary signal composed of a component of a predetermined band of the second acoustic signal are added to the first acoustic signal to obtain a third And a first auxiliary signal synthesizer for generating an acoustic signal.
  • a first delay unit that delays the first acoustic signal for a predetermined time before the addition of the first auxiliary signal; and the second acoustic signal that is delayed for the predetermined time after the generation of the first auxiliary signal. And a second delay unit to be provided.
  • the first auxiliary signal synthesis unit can adjust the level of the first auxiliary signal before adding it to the first acoustic signal.
  • a second input signal that is an acoustic signal for a second virtual sound source deviated to the left or right from the median plane
  • a predetermined sixth of the fourth acoustic signal and a band in which the notch appears in the seventh head acoustic transfer function is obtained.
  • a second transoral processing unit for generating a fifth acoustic signal in which the components of the third and lowest third bands at frequencies and above are attenuated; and the second of the fifth acoustic signals.
  • Second composed of the same band component as the auxiliary signal of 1
  • a second auxiliary signal synthesizer that generates a sixth acoustic signal by adding an auxiliary signal to the fourth acoustic signal; and the first virtual sound source and the second virtual sound source are based on the median plane In the case where the sound signal is divided into left and right, the third sound signal and the fifth sound signal are added, the second sound signal and the sixth sound signal are added, and the first virtual sound source and the second sound signal are added.
  • the third acoustic signal and the sixth acoustic signal are added, and the second acoustic signal and the fifth acoustic signal are added.
  • An addition unit can be further provided.
  • the first frequency may be a frequency at which a positive peak appears in the vicinity of 4 kHz of the first head acoustic transfer function.
  • the first transoral processing unit includes a first binaural processing unit that generates a first binaural signal in which the first head acoustic transfer function is superimposed on the first input signal;
  • a second binaural signal is generated by attenuating the components of the first band and the second band among the components of the signal obtained by superimposing the head acoustic transfer function of the first input signal on the first input signal.
  • a crosstalk correction processing unit that performs a crosstalk correction process for canceling crosstalk from a speaker on the virtual sound source side to an ear far from the first virtual sound source can be provided.
  • the first binaural processing unit generates a third binaural signal in which components of the first band and the second band among the components of the first binaural signal are attenuated, and the crosstalk
  • the correction processing unit can perform the crosstalk correction processing on the second binaural signal and the third binaural signal.
  • the first transoral processing unit includes an attenuation unit that generates an attenuation signal in which components of the first band and the second band of the first input signal are attenuated, and the first head Processing for generating a first binaural signal in which an acoustic transfer function is superimposed on the attenuated signal, a second binaural signal in which the second head acoustic transfer function is superimposed on the attenuated signal, and the first A speaker on the opposite side of the first virtual sound source with respect to the median plane among two speakers arranged on the left and right with respect to the listening position with respect to the binaural signal and the second binaural signal; Sound transfer characteristics between the ear farther from the first virtual sound source, the speaker on the virtual sound source side and the first virtual sound source close to the median plane of the two speakers Acoustic transfer characteristics between the first virtual sound source and a speaker on the opposite side of the first virtual sound source, crosstalk from the first virtual sound source to the ear closer to the first virtual sound source, and the virtual sound source side from the speaker
  • the acoustic signal processing method is based on an input signal that is an acoustic signal for a virtual sound source deviated to the left or right from the median plane at a predetermined listening position.
  • a first head acoustic transfer function between the ear far from the virtual sound source and the virtual sound source, and an ear closer to the virtual sound source of both ears of the listener and the virtual sound source By performing predetermined transoral processing using the second head acoustic transfer function in the meantime, the amplitude of the first acoustic signal and the first head acoustic transfer function is equal to or greater than a predetermined depth.
  • Transformer that generates a second acoustic signal in which the components of the lowest first band and the second lowest second band in the band in which the notch that is a negative peak appears is a predetermined first frequency or higher are attenuated. Includes Lal processing step, an auxiliary signal combining step of generating a third audio signal by adding the auxiliary signal having a predetermined component of the band of the second audio signal to the first acoustic signal.
  • the program according to the first aspect of the present technology is configured such that an input signal that is an acoustic signal for a virtual sound source deviated to the left or right from the median plane at a predetermined listening position is the listener's ears at the listening position.
  • a transoral for generating a second acoustic signal in which the components of the lowest first band and the second lowest second band in the band where the notch appears is a predetermined first frequency or higher are attenuated.
  • a computer including a processing step and a supplementary signal synthesis step of generating a third acoustic signal by adding an auxiliary signal composed of a component of a predetermined band of the second acoustic signal to the first acoustic signal.
  • the acoustic signal processing device receives the first input signal, which is an acoustic signal for the first virtual sound source deviating left or right from the median plane at a predetermined listening position, from the median plane.
  • Generating a first composite signal by adding a first auxiliary signal composed of a component of a predetermined band of a second input signal that is an acoustic signal for the second virtual sound source deviated to the left or right;
  • An auxiliary signal synthesizer for generating a second synthesized signal by adding a second auxiliary signal composed of a component in the same band as the first auxiliary signal of the first input signal to the second input signal;
  • the first head acoustic transfer function between the ear far from the first virtual sound source and the first virtual sound source, and the listener's ears The ear closer to the first virtual sound source and the first By performing a predetermined transoral process using the second head acoustic transfer function with the virtual
  • a predetermined transoral processing having been performed By performing for the third acoustic signal and the third band lower than the predetermined second frequency and the second lowest among the bands in which the notch appears in the third acoustic signal and the third head acoustic transfer function And a second transoral processing unit that generates a fourth acoustic signal in which a component of the fourth band is attenuated.
  • the first acoustic signal and the fourth acoustic signal are added, and the second acoustic signal and the second acoustic signal
  • the first acoustic signal and the third acoustic signal are An addition unit that adds and adds the second acoustic signal and the fourth acoustic signal may be further provided.
  • the bands of the first auxiliary signal and the second auxiliary signal one of two speakers arranged on the left and right with respect to the listening position and one ear of both ears of the listener Among the bands in which the notch appears in the fifth head acoustic transfer function between the first and second bands, the lowest band and the second lowest band above a predetermined third frequency, the other speaker of the two speakers, and the Of the bands in which the notch appears in the sixth head acoustic transfer function between the other ears of the listener's ears, the lowest band and the second lowest band above a predetermined fourth frequency, the one Among the bands in which the notch appears in the seventh head-related acoustic transfer function between the other speaker and the other ear, the lowest band above the predetermined fifth frequency and the second lowest And the lowest band and the second lowest band of the eighth head acoustic transfer function between the other speaker and the one ear among the bands in which the notch appears in a band above a predetermined sixth frequency. At least.
  • the first frequency is a frequency at which a positive peak appears in the vicinity of 4 kHz of the first head acoustic transfer function
  • the second frequency is a positive in the vicinity of 4 kHz of the third head acoustic transfer function.
  • the frequency at which the peak appears can be used.
  • the first transoral processing unit includes a first binaural processing unit that generates a first binaural signal in which the first head acoustic transfer function is superimposed on the first synthesized signal;
  • a second binaural signal is generated by attenuating the components of the first band and the second band among the components of the signal obtained by superimposing the head acoustic transfer function of the first superimposed signal on the first synthesized signal.
  • a first crosstalk correction processing unit for performing crosstalk correction processing for canceling crosstalk from a speaker on the first virtual sound source side to an ear far from the first virtual sound source.
  • a second binaural processing unit that generates a third binaural signal in which the third head acoustic transfer function is superimposed on the second synthesized signal; and A fourth binaural signal is generated by attenuating the components of the third band and the fourth band among the components of the signal obtained by superimposing the fourth head acoustic transfer function on the second synthesized signal.
  • a second crosstalk correction processing unit that performs a crosstalk correction process for canceling crosstalk from a certain speaker to an ear far from the second virtual sound source can be provided.
  • the first binaural processing unit generates a fifth binaural signal obtained by attenuating the components of the first band and the second band among the components of the first binaural signal
  • the crosstalk correction processing unit performs the crosstalk correction processing on the second binaural signal and the fifth binaural signal
  • the third binauralization processing unit performs the third binaural processing unit.
  • a sixth binaural signal is generated by attenuating the third band component and the fourth band component of the signal components
  • the second crosstalk correction processing unit includes the fourth binaural signal and The crosstalk correction process can be performed on the sixth binaural signal.
  • the first transoral processing unit includes a first attenuation unit that generates a first attenuation signal that attenuates components of the first band and the second band of the first combined signal; A first binaural signal in which the first head acoustic transfer function is superimposed on the first attenuation signal, and a second binaural in which the second head acoustic transfer function is superimposed on the first attenuation signal Processing for generating a signal, and the first binaural signal and the second binaural signal with respect to the median plane of the two speakers arranged on the left and right with respect to the listening position.
  • the second transoral processing unit includes a second attenuation unit that generates a second attenuation signal in which components of the third band and the fourth band of the second combined signal are attenuated; A third binaural signal in which a third head acoustic transfer function is superimposed on the second attenuation signal, and a fourth binaural signal in which the fourth head acoustic transfer function is superimposed on the second attenuation signal And a process of generating the
  • the acoustic signal processing method provides a first input signal that is an acoustic signal for the first virtual sound source deviating left or right from the median plane at a predetermined listening position from the median plane.
  • Generating a first composite signal by adding a first auxiliary signal composed of a component of a predetermined band of a second input signal that is an acoustic signal for the second virtual sound source deviated to the left or right;
  • the first head acoustic transfer function between the ear far from the first virtual sound source and the first virtual sound source, and the listener's ears The ear closer to the first virtual sound source and
  • predetermined transoral processing using the second head acoustic transfer function with the first virtual sound source on the first synthesized signal
  • the program according to the second aspect of the present technology provides a first input signal, which is an acoustic signal for the first virtual sound source that deviates left or right from the median plane at a predetermined listening position, to the left or right from the median plane.
  • a first synthesized signal is generated by adding a first auxiliary signal consisting of a component of a predetermined band of the second input signal that is an acoustic signal for the second virtual sound source deviated to An auxiliary signal combining step of generating a second combined signal by adding a second auxiliary signal having a component in the same band as the first auxiliary signal of the input signal to the second input signal; and the listening position
  • the predetermined transoral processing was performed in the second combination.
  • the third acoustic signal and the third and second lowest bands above the predetermined second frequency among the bands in which the notch appears in the third head acoustic transfer function And a second transoral processing step of generating a fourth acoustic signal in which a component of the fourth lower band is attenuated.
  • the virtual of the listener's ears at the listening position A first head-related acoustic transfer function between the ear far from the sound source and the virtual sound source, and a second between the ear closer to the virtual sound source of the listener's ears and the virtual sound source
  • the first acoustic signal and the negative peak whose amplitude is equal to or greater than a predetermined depth in the first head acoustic transfer function
  • a second acoustic signal in which the components of the lowest first band and the second lowest second band in the band where the notch appears is attenuated at a predetermined first frequency or higher is generated, and the second acoustic signal is generated.
  • acoustic Third acoustic signal is generated by the auxiliary signal having a pre
  • the first input signal that is an acoustic signal for the first virtual sound source deviated to the left or right from the median plane at the predetermined listening position is set to the left or right from the median plane.
  • a first synthesized signal is generated by adding a first auxiliary signal consisting of a component of a predetermined band of the second input signal, which is an acoustic signal for the second virtual sound source that has deviated, and the first synthesized signal is generated.
  • a second composite signal is generated by adding a second auxiliary signal having a component in the same band as the first auxiliary signal of the input signal to the second input signal, and both of the listeners at the listening position are generated.
  • a predetermined transoral process using two head acoustic transfer functions is performed on the first synthesized signal, so that the amplitude of the first acoustic signal and the first head acoustic transfer function is increased.
  • the second band in which the components of the lowest first band and the second lowest band are attenuated above a predetermined first frequency are attenuated above a predetermined first frequency.
  • An acoustic signal is generated, and a third head acoustic transfer function between the second virtual sound source and an ear far from the second virtual sound source of both ears of the listener, and both of the listener
  • a predetermined transoral process using a fourth cephalometric transfer function between an ear of the ear that is closer to the second virtual sound source and the second virtual sound source is performed on the second synthesized signal.
  • the third acoustic signal In the third head-related acoustic transfer function, the third and lowest fourth band components of the band in which the notch appears in the third and lower bands above the predetermined second frequency are attenuated. Are generated.
  • the first aspect or the second aspect of the present technology it is possible to localize the sound image at a position deviated to the left or right from the midline of the listener. Further, according to the first aspect or the second aspect of the present technology, it is possible to improve the sense of localization of the sound image at a position deviated to the left or right from the median plane of the listener.
  • Non-Patent Document 1 peaks and dips that appear on the high frequency side in the amplitude-frequency characteristics of HRTF (Head-Related Transfer Function) are important clues to the sense of localization in the vertical and longitudinal directions of the sound image.
  • HRTF Head-Related Transfer Function
  • the non-patent document 1 includes a positive peak P1 that appears in the vicinity of 4 kHz and two notches N1 and N2 that appear first in a band equal to or higher than the frequency at which the peak P1 appears. It is pointed out that the contribution ratio to the sense of orientation before and after the top and bottom is high.
  • a dip refers to a portion that is recessed as compared with the surroundings in a waveform diagram such as an amplitude-frequency characteristic of HRTF.
  • the notch refers to a dip having a particularly narrow width (for example, a band in the amplitude-frequency characteristic of HRTF) and a predetermined depth or more, that is, a steep negative peak appearing in a waveform diagram.
  • the notch N1 and the notch N2 in FIG. 1 are also referred to as a first notch and a second notch, respectively.
  • the peak P1 has no dependency on the direction of the sound source, and appears in almost the same band regardless of the direction of the sound source.
  • the peak P1 is a reference signal for the human auditory system to search for the first notch and the second notch, and the physical parameter that substantially contributes to the sense of localization before and after 1 notch and 2nd notch are considered.
  • Patent Document 1 when the position of the sound source deviates to the left or right from the midline of the listener, the first and second notches appearing on the sound source reverse side HRTF have a sense of localization before and after the sound image. It has been shown to be important. Moreover, if the first notch and the second notch of the sound source reverse side HRTF can be reproduced at the ear of the listener's sound source reverse side, the amplitude of the sound in the band where the notch appears at the ear of the sound source side has a sense of localization before and after the sound image. It has been shown not to have a significant effect.
  • the sound source side is the one closer to the sound source in the left-right direction with respect to the listening position, and the sound source opposite side is the one far from the sound source.
  • the sound source side is the same side as the sound source when the left and right spaces are divided with reference to the listener's midline at the listening position, and the sound source reverse side is the opposite side.
  • the sound source side HRTF is the HRTF corresponding to the listener's sound source side ear
  • the sound source reverse side HRTF is the HRTF corresponding to the listener's sound source reverse side ear.
  • the ear on the opposite side of the sound source of the listener is also referred to as an ear on the shadow side.
  • the first notch and the second notch appearing in the sound source reverse side HRTF of the virtual speaker are formed in the sound signal on the sound source side, and then the transformer Perform oral processing. Thereby, the first notch and the second notch are stably reproduced at the ear on the opposite side of the sound source, and the positions of the virtual speaker before and after are stabilized.
  • a two-channel signal recorded by binaural recording is called a binaural signal and includes acoustic information regarding the position of the sound source in the vertical direction and the front-rear direction as well as the left and right for humans.
  • a technique for reproducing this binaural signal by using left and right two-channel speakers instead of headphones is called a trans-oral reproduction system.
  • the sound based on the binaural signal is output from the speaker as it is, for example, a crosstalk that causes the right ear sound to be heard in the listener's left ear will occur.
  • the sound transfer characteristic from the speaker to the right ear is superimposed and the waveform is deformed until the right ear sound reaches the listener's right ear.
  • pre-processing for canceling crosstalk and extra sound transfer characteristics is performed on the binaural signal.
  • this pre-processing is referred to as crosstalk correction processing.
  • the binaural signal can be generated without recording with the microphone at the ear.
  • the binaural signal is obtained by superimposing the HRTF from the position of the sound source to both ears on the acoustic signal. Therefore, if the HRTF is known, a binaural signal can be generated by performing signal processing for superimposing the HRTF on the acoustic signal.
  • this process is referred to as a binaural process.
  • the above binaural processing and crosstalk correction processing are performed.
  • the front surround system is a virtual surround system that artificially creates a surround sound field using only front speakers.
  • a process combining the binaural process and the crosstalk correction process is a trans-oral process.
  • FIG. 2 shows an example in which the sound image output from the speakers 12L and 12R is localized at the position of the virtual speaker 13 for the listener P at a predetermined listening position using the sound image localization filters 11L and 11R. ing.
  • the position of the virtual speaker 13 is set to the upper left of the listening position (listener P).
  • the sound source side HRTF between the virtual speaker 13 and the left ear EL of the listener P is referred to as a head acoustic transfer function HL
  • the sound source reverse side HRTF between the virtual speaker 13 and the right ear ER of the listener P is referred to as a head sound transfer function HL.
  • HR the HRTF between the speaker 12L and the left ear EL of the listener P and the HRTF between the speaker 12R and the right ear ER of the listener P are the same
  • HRTF is referred to as the head acoustic transfer function G1.
  • the HRTF between the speaker 12L and the right ear ER of the listener P and the HRTF between the speaker 12R and the left ear EL of the listener P are the same, and the HRTF is the head acoustic transfer function G2. Called.
  • the head acoustic transfer function G1 is superimposed before the sound from the speaker 12L reaches the left ear EL of the listener P, and the sound from the speaker 12R reaches the left ear EL of the listener P.
  • the head acoustic transfer function G2 is superimposed up to this point.
  • the sound image localization filters 11L and 11R act ideally, the sound waveform obtained by synthesizing the sounds from both speakers in the left ear EL cancels the influence of the head acoustic transfer functions G1 and G2, and the sound.
  • the waveform is obtained by superimposing the head acoustic transfer function HL on the signal Sin.
  • the head acoustic transfer function G1 is superimposed before the sound from the speaker 12R reaches the right ear ER of the listener P, and the head acoustics until the sound from the speaker 12L reaches the right ear ER of the listener P.
  • the transfer function G2 is superimposed.
  • the sound image localization filters 11L and 11R act ideally, the sound waveform obtained by synthesizing the sounds from both speakers at the right ear ER cancels the influence of the head acoustic transfer functions G1 and G2, and the sound.
  • the waveform is obtained by superimposing the head acoustic transfer function HR on the signal Sin.
  • the sound signal Sin input to the sound source localization filter 11L on the sound source side is the same as the first notch and the second notch of the head acoustic transfer function HR on the sound source reverse side.
  • the notch of the band is formed, in the left ear EL of the listener P, the first notch and the second notch of the head acoustic transfer function HL and the substantially same band as the first notch and the second notch of the head acoustic transfer function HR The notch appears.
  • the first notch and the second notch of the head acoustic transfer function HR appear in the right ear ER of the listener P.
  • the first notch and the second notch of the head acoustic transfer function HR are stably reproduced, and the vertical position of the virtual speaker 13 is stabilized.
  • the crosstalk correction process is ideally performed.
  • the filter 11L and 11R are caused by a filter characteristic error caused by the necessity of making the filter 11L practical, or by an error caused in a spatial acoustic signal synthesis due to the fact that the normal listening position is not an ideal position. This is due to things.
  • the first notch and the second notch of the right ear HR are applied to the entire signal, the reproducibility is good.
  • the bands of the first notch and the second notch of the head acoustic transfer function G1 and the bands of the first notch and the second notch of the head acoustic transfer function G2 generally do not match. Therefore, when the volume of the speaker 12L and the volume of the speaker 12R are significant, the first notch and the second notch of the head acoustic transfer function G1 are the sound from the speaker 12R in the left ear EL of the listener P. The first notch and the second notch of the head acoustic transfer function G2 are canceled by the sound from the speaker 12L.
  • the first notch and the second notch of the head acoustic transfer function G1 are canceled out by the sound from the speaker 12L, and the first notch and the second notch of the head acoustic transfer function G2 are cancelled. Is canceled by the sound from the speaker 12R.
  • the notches of the head acoustic transfer functions G1 and G2 do not appear in both ears of the listener P and do not affect the sense of orientation of the virtual speaker 13, so that the vertical position of the virtual speaker 13 is stabilized.
  • the volume of the speaker 12R is significantly smaller than the volume of the speaker 12L
  • the sound from the speaker 12R hardly reaches both ears of the listener P.
  • the first notch and the second notch of the head acoustic transfer function G1 remain without being erased.
  • the first notch and the second notch of the head acoustic transfer function G2 remain without being erased.
  • the head acoustic transfer function G1 in addition to the first notch and the second notch of the head acoustic transfer function HR, the head acoustic transfer function G1 The first notch and the second notch appear. That is, two sets of notches are generated at the same time.
  • the first notch and the second notch of the head acoustic transfer function G2 appear in addition to the first notch and the second notch of the head acoustic transfer function G2 appear. That is, two sets of notches are generated at the same time.
  • notches other than the head acoustic transfer functions HL and HR appear in both ears of the listener P, so that the first notch and the first notches of the head acoustic transfer function HR are included in the acoustic signal Sin input to the sound image localization filter 11L.
  • the effect of forming a notch in the same band as the two notches is reduced. And it becomes difficult for the listener P to identify the position of the virtual speaker 13, and the positions before and after the virtual speaker 13 become unstable.
  • the gain of the sound image localization filter 11R is significantly smaller than the gain of the sound image localization filter 11L.
  • the axis passing through both ears of the listener P is referred to as the interaural axis.
  • a circle that is centered on an arbitrary point on the interaural axis and is perpendicular to the interaural axis is referred to as a circle around the interaural axis.
  • the listener P cannot identify the position of the sound source on the circumference of the same circle around the interaural axis due to a phenomenon called cone-shaped confusion in the field of spatial acoustics (for example, Non-Patent Document 1). Page 16).
  • equation (1 ') is a modification of equation (1).
  • the sound image localization filter 11L is approximately the difference between the head acoustic transfer function HL and the head acoustic transfer function G1.
  • the output of the sound image localization filter 11R is almost zero. Therefore, the volume of the speaker 12R is significantly smaller than the volume of the speaker 12L.
  • the gain (coefficient CR) of the sound image localization filter 11R is the sound image localization filter. It is significantly smaller than a gain of 11L (coefficient CL).
  • the volume of the speaker 12R becomes significantly smaller than the volume of the speaker 12L, and the vertical position of the virtual speaker 13 becomes unstable.
  • the present technology makes it possible to stabilize the orientation of the virtual speaker even when the volume of one speaker is significantly lower than the volume of the other speaker.
  • FIG. 3 is a diagram illustrating a configuration example of functions of the acoustic signal processing system 101L according to the first embodiment of the present technology.
  • the acoustic signal processing system 101L is configured to include an acoustic signal processing unit 111L and speakers 112L and 112R.
  • the speakers 112L and 112R are, for example, arranged symmetrically in front of an ideal predetermined listening position in the acoustic signal processing system 101L.
  • the acoustic signal processing system 101L uses the speakers 112L and 112R to realize a virtual speaker 113 that is a virtual sound source. That is, the acoustic signal processing system 101L causes the listener P located at a predetermined listening position to localize the sound image output from the speakers 112L and 112R at the position of the virtual speaker 113 that is off to the left from the median plane. Is possible.
  • the position of the virtual speaker 113 is set to the upper left of the listening position (listener P).
  • the right ear ER of the listener P is the shadow side.
  • the speaker 112L and the virtual speaker 113 are arranged on the circumference of the same circle around the interaural axis or in the vicinity thereof.
  • the sound source side HRTF between the virtual speaker 113 and the left ear EL of the listener P is referred to as a head acoustic transfer function HL
  • the right ear ER of the virtual speaker 113 and the listener P The HRTF on the opposite side of the sound source is called the head acoustic transfer function HR.
  • HRTF is referred to as the head acoustic transfer function G1.
  • HRTF is referred to as a head acoustic transfer function G2.
  • the acoustic signal processing unit 111L is configured to include a trans-oral processing unit 121L and an auxiliary signal synthesis unit 122L.
  • the trans-oral processing unit 121L is configured to include a binauralization processing unit 131L and a crosstalk correction processing unit 132.
  • the binaural processing unit 131L includes a notch formation equalizer 141L and binaural signal generation units 142L and 142R.
  • the crosstalk correction processing unit 132 is configured to include signal processing units 151L and 151R, signal processing units 152L and 152R, and addition units 153L and 153R.
  • the auxiliary signal synthesis unit 122L is configured to include an auxiliary signal generation unit 161L and an addition unit 162R.
  • the notch formation equalizer 141L attenuates a component of the band in which the first notch and the second notch appear in the sound source reverse side HRTF (head acoustic transfer function HR) among the components of the acoustic signal Sin input from the outside (hereinafter, referred to as “notch forming equalizer 141L”). , Referred to as notch formation processing).
  • the notch formation equalizer 141L supplies the acoustic signal Sin ′ obtained as a result of the notch formation process to the binaural signal generation unit 142L.
  • the binaural signal generation unit 142L generates the binaural signal BL by superimposing the head acoustic transfer function HL on the acoustic signal Sin ′.
  • the binaural signal generation unit 142L supplies the generated binaural signal BL to the signal processing unit 151L and the signal processing unit 152L.
  • the binaural signal generator 142R generates the binaural signal BR by superimposing the head acoustic transfer function HR on the externally input acoustic signal Sin.
  • the binaural signal generation unit 142R supplies the generated binaural signal BR to the signal processing unit 151R and the signal processing unit 152R.
  • the signal processing unit 151L generates the acoustic signal SL1 by superimposing a predetermined function f1 (G1, G2) having the head acoustic transfer functions G1, G2 as variables on the binaural signal BL.
  • the signal processing unit 151L supplies the generated acoustic signal SL1 to the addition unit 153L.
  • the signal processing unit 151R generates the acoustic signal SR1 by superimposing the function f1 (G1, G2) on the binaural signal BR.
  • the signal processing unit 151R supplies the generated acoustic signal SR1 to the addition unit 153R.
  • the signal processing unit 152L generates the acoustic signal SL2 by superimposing a predetermined function f2 (G1, G2) having the head acoustic transfer functions G1, G2 as variables on the binaural signal BL.
  • the signal processing unit 152L supplies the generated acoustic signal SL2 to the adding unit 153R.
  • the signal processing unit 152R generates the acoustic signal SR2 by superimposing the function f2 (G1, G2) on the binaural signal BR.
  • the signal processing unit 152R supplies the generated acoustic signal SR2 to the adding unit 153L.
  • the addition unit 153L generates the acoustic signal SLout1 by adding the acoustic signal SL1 and the acoustic signal SR2.
  • the adder 153L supplies the acoustic signal SLout1 to the auxiliary signal generator 161L and the speaker 112L.
  • the adding unit 153R generates the acoustic signal SRout1 by adding the acoustic signal SR1 and the acoustic signal SL2.
  • the adder 153R supplies the acoustic signal SRout1 to the adder 162R.
  • the auxiliary signal generation unit 161L includes, for example, a filter that extracts or attenuates a signal in a predetermined band (for example, a high-pass filter, a band-pass filter, etc.) and an attenuator that adjusts the signal level.
  • the auxiliary signal generation unit 161L generates an auxiliary signal SLsub by extracting or attenuating a signal in a predetermined band of the acoustic signal SLout1, and adjusts the signal level of the auxiliary signal SLsub as necessary.
  • the auxiliary signal generation unit 161L supplies the generated auxiliary signal SLsub to the addition unit 162R.
  • the adding unit 162R generates the acoustic signal SRout2 by adding the acoustic signal SRout1 and the auxiliary signal SLsub.
  • the adder 162R supplies the acoustic signal SRout2 to the speaker 112R.
  • the speaker 112L outputs sound based on the acoustic signal SLout1
  • the speaker 112R outputs sound based on the acoustic signal SRout2 (that is, a signal obtained by synthesizing the acoustic signal SRout1 and the auxiliary signal SLsub).
  • the notch formation equalizer 141L forms a notch in the same band as the notch of the sound source reverse side HRTF in the sound signal Sin on the sound source side. That is, the notch formation equalizer 141L attenuates a component in the same band as the first notch and the second notch of the head acoustic transfer function HR that is the sound source reverse side HRTF of the virtual speaker 113 among the components of the acoustic signal Sin.
  • the lowest band and the second lowest band of the band where the notch of the head acoustic transfer function HR appears is equal to or higher than a predetermined frequency (a frequency where a positive peak near 4 kHz appears).
  • the component is attenuated.
  • the notch formation equalizer 141L supplies the acoustic signal Sin ′ obtained as a result to the binaural signal generation unit 142L.
  • step S2 the binaural signal generators 142L and 142R perform binaural processing. Specifically, the binaural signal generation unit 142L generates the binaural signal BL by superimposing the head acoustic transfer function HL on the acoustic signal Sin ′. The binaural signal generation unit 142L supplies the generated binaural signal BL to the signal processing unit 151L and the signal processing unit 152L.
  • This binaural signal BL is an HRTF in which a notch in the same band as the first notch and the second notch of the sound source reverse side HRTF (head acoustic transfer function HR) is formed in the sound source side HRTF (head acoustic transfer function HL).
  • the signal is superimposed on Sin.
  • the binaural signal BL is a signal obtained by attenuating a component of a band in which the first notch and the second notch appear in the sound source reverse side HRTF among the components of the signal in which the sound source side HRTF is superimposed on the acoustic signal Sin. .
  • the binaural signal generator 142R generates the binaural signal BR by superimposing the head acoustic transfer function HR on the acoustic signal Sin.
  • the binaural signal generation unit 142R supplies the generated binaural signal BR to the signal processing unit 151R and the signal processing unit 152R.
  • step S3 the crosstalk correction processing unit 132 performs a crosstalk correction process. Specifically, the signal processing unit 151L generates the acoustic signal SL1 by superimposing the above-described function f1 (G1, G2) on the binaural signal BL. The signal processing unit 151L supplies the generated acoustic signal SL1 to the addition unit 153L.
  • the signal processing unit 151L generates the acoustic signal SL1 by superimposing the above-described function f1 (G1, G2) on the binaural signal BL.
  • the signal processing unit 151L supplies the generated acoustic signal SL1 to the addition unit 153L.
  • the signal processing unit 151R generates the acoustic signal SR1 by superimposing the function f1 (G1, G2) on the binaural signal BR.
  • the signal processing unit 151R supplies the generated acoustic signal SR1 to the addition unit 153R.
  • the signal processing unit 152L generates the acoustic signal SL2 by superimposing the above-described function f2 (G1, G2) on the binaural signal BL.
  • the signal processing unit 152L supplies the generated acoustic signal SL2 to the adding unit 153R.
  • the signal processing unit 152R generates the acoustic signal SR2 by superimposing the function f2 (G1, G2) on the binaural signal BR.
  • the signal processing unit 152R supplies the generated acoustic signal SL2 to the adding unit 153L.
  • the adder 153L generates the acoustic signal SLout1 by adding the acoustic signal SL1 and the acoustic signal SR2.
  • the adder 153L supplies the generated acoustic signal SLout1 to the auxiliary signal generator 161L and the speaker 112L.
  • the adding unit 153R generates the acoustic signal SRout1 by adding the acoustic signal SR1 and the acoustic signal SL2.
  • the adder 153R supplies the generated acoustic signal SRout1 to the adder 162R.
  • the speaker 112L and the virtual speaker 113 are arranged on or near the circumference of the same circle around the interaural axis, the magnitude of the acoustic signal SRout1 is almost zero. .
  • step S4 the auxiliary signal synthesis unit 122L performs an auxiliary signal synthesis process. Specifically, the auxiliary signal generation unit 161L generates the auxiliary signal SLsub by extracting or attenuating a signal in a predetermined band of the acoustic signal SLout1.
  • the auxiliary signal generation unit 161L generates an auxiliary signal SLsub including a component of a band of 4 kHz or more of the acoustic signal SLout1 by attenuating the band of the acoustic signal SLout1 that is less than 4 kHz.
  • the auxiliary signal generation unit 161L generates the auxiliary signal SLsub by extracting a component of a predetermined band from the band of 4 kHz or more from the acoustic signal SLout1.
  • the bands extracted here include at least a first notch and a second notch of the head acoustic transfer function G1 and a band in which the first notch and the second notch of the head acoustic transfer function G2 appear.
  • the HRTF between the speaker 112L and the left ear EL is different from the HRTF between the speaker 112R and the right ear ER
  • the HRTF between the speaker 112L and the right ear ER is different from the speaker 112R and the left ear EL.
  • the band in which the first notch and the second notch of each HRTF appear may be included at least in the band of the auxiliary signal SLsub.
  • the auxiliary signal generation unit 161L adjusts the signal level of the auxiliary signal SLsub as necessary. Then, the auxiliary signal generation unit 161L supplies the generated auxiliary signal SLsub to the addition unit 162R.
  • the adding unit 162R generates the acoustic signal SRout2 by adding the auxiliary signal SLsub to the acoustic signal SRout1.
  • the adder 162R supplies the generated acoustic signal SRout2 to the speaker 112R.
  • the level of the acoustic signal SRout1 is almost 0, at least the first notch and the second notch of the head acoustic transfer function G1 and the first notch and the second notch of the head acoustic transfer function G2 appear.
  • the level of the acoustic signal SRout2 becomes significant with respect to the acoustic signal SLout1.
  • the level of the acoustic signal SRout2 becomes very small.
  • step S4 sounds based on the acoustic signal SLout1 or SRout2 are output from the speaker 112L and the speaker 112R, respectively.
  • the signal level of the reproduced sound of the speakers 112L and 112R becomes small, and the listener P has both ears.
  • the level of the band decreases stably. Therefore, even if crosstalk occurs, the first notch and the second notch of the sound source reverse side HRTF are stably reproduced at the ear of the listener P on the shadow side.
  • the first notch and the second notch of the head acoustic transfer function G1 and the first notch and the second notch of the head acoustic transfer function G2 appear, the sound output from the speaker 112L and the output from the speaker 112R The level of the sound to be played becomes a significant level. Therefore, in both ears of the listener P, the first notch and the second notch of the head acoustic transfer function G1 and the first notch and the second notch of the head acoustic transfer function G2 cancel each other and do not appear.
  • the speaker 112L and the virtual speaker 113 are arranged on or near the circumference of the same circle around the interaural axis and the level of the acoustic signal SRout1 is significantly lower than the acoustic signal SLout1, The positions before and after the speaker 113 can be stabilized.
  • the auxiliary signal SLsub due to the influence of the auxiliary signal SLsub, it is also assumed that the size of the sound image slightly expands in the band of the auxiliary signal SLsub. However, if the auxiliary signal SLsub is at an appropriate level, the sound body is basically formed in the low-frequency to mid-frequency range, so the influence is slight. However, it is desirable to adjust the level of the auxiliary signal SLsub as small as possible within a range in which the effect of stabilizing the orientation of the virtual speaker 113 can be obtained.
  • FIG. 5 is a diagram illustrating a functional configuration example of the acoustic signal processing system 101R which is a modification of the first embodiment of the present technology.
  • portions corresponding to those in FIG. 3 are denoted by the same reference numerals, and description of portions having the same processing will be omitted as appropriate since description thereof will be repeated.
  • the acoustic signal processing system 101R is a system that localizes the virtual speaker 113 at a position deviated to the right from the median plane of the listener P at a predetermined listening position.
  • the left ear EL of the listener P is the shadow side.
  • the acoustic signal processing system 101R has a symmetrical configuration as compared with the acoustic signal processing system 101L. Specifically, the acoustic signal processing system 101R is different from the acoustic signal processing system 101L in that an acoustic signal processing unit 111R is provided instead of the acoustic signal processing unit 111L. Compared to the acoustic signal processing unit 111L, the acoustic signal processing unit 111R includes a transoral processing unit 121R and an auxiliary signal synthesis unit 122R instead of the transoral processing unit 121L and the auxiliary signal synthesis unit 122L. Different. The trans-oral processing unit 121R is different from the trans-oral processing unit 121L in that a binaural processing unit 131R is provided instead of the binaural processing unit 131L.
  • the binauralization processing unit 131R is different from the binauralization processing unit 131L in that a notch formation equalizer 141R is provided in front of the binaural signal generation unit 142R and the notch formation equalizer 141L is deleted.
  • the notch forming equalizer 141R has the same function as the notch forming equalizer 141L, and the first notch and the second notch appear in the sound source reverse side HRTF (head acoustic transfer function HL) among the components of the acoustic signal Sin. A notch forming process for attenuating the band components is performed.
  • the notch formation equalizer 141R supplies the acoustic signal Sin ′ obtained as a result to the binaural signal generation unit 142R.
  • the binaural signal generation unit 142L generates the binaural signal BL by superimposing the head acoustic transfer function HL on the externally input acoustic signal Sin.
  • the binaural signal generation unit 142L supplies the generated binaural signal BL to the signal processing unit 151L and the signal processing unit 152L.
  • the binaural signal generation unit 142R generates the binaural signal BR by superimposing the head acoustic transfer function HR on the acoustic signal Sin ′.
  • the binaural signal generation unit 142R supplies the generated binaural signal BR to the signal processing unit 151R and the signal processing unit 152R.
  • the auxiliary signal synthesis unit 122R is different from the auxiliary signal synthesis unit 122L in that an auxiliary signal generation unit 161R and an addition unit 162L are provided instead of the auxiliary signal generation unit 161L and the addition unit 162R.
  • the auxiliary signal generation unit 161R has a function similar to that of the auxiliary signal generation unit 161L, and generates an auxiliary signal SRsub by extracting or attenuating a signal in a predetermined band of the acoustic signal SRout1, and assists as necessary. The signal level of the signal SRsub is adjusted. The auxiliary signal generation unit 161R supplies the generated auxiliary signal SRsub to the addition unit 162L.
  • the adding unit 162L generates the acoustic signal SLout2 by adding the acoustic signal SLout1 and the auxiliary signal SRsub.
  • the adder 162L supplies the acoustic signal SLout2 to the speaker 112L.
  • the speaker 112L outputs a sound based on the acoustic signal SLout2, and the speaker 112R outputs a sound based on the acoustic signal SRout1.
  • the acoustic signal processing system 101R can stably localize the virtual speaker 113 at a position deviated to the right from the median plane of the listener P at the predetermined listening position by the same method as the acoustic signal processing system 101L. it can.
  • FIG. 6 is a diagram illustrating a functional configuration example of the acoustic signal processing system 201L according to the second embodiment of the present technology.
  • portions corresponding to those in FIG. 3 are denoted by the same reference numerals, and description of portions having the same processing will be omitted as appropriate because the description will be repeated.
  • the acoustic signal processing system 201L is a system capable of localizing the virtual speaker 113 at a position deviated to the left from the median plane of the listener P at a predetermined listening position, like the acoustic signal processing system 101L.
  • the acoustic signal processing system 201L is different from the acoustic signal processing system 101L in FIG. 3 in that an acoustic signal processing unit 211L is provided instead of the acoustic signal processing unit 111L.
  • the acoustic signal processing unit 211L is different from the acoustic signal processing unit 111L in that a trans-oral processing unit 221 is provided instead of the trans-oral processing unit 121L.
  • the trans-oral processing unit 221 is different from the trans-oral processing unit 121L in that a binaural processing unit 231 is provided instead of the binaural processing unit 131L.
  • the binauralization processing unit 231 is different from the binauralization processing unit 131L in that a notch formation equalizer 141R is added before the binaural signal generation unit 142R.
  • the notch formation equalizer 141R is an equalizer similar to the notch formation equalizer 141L. Therefore, the notch formation equalizer 141R performs notch formation processing for attenuating the component of the band in which the first notch and the second notch appear in the sound source reverse side HRTF (head acoustic transfer function HR) among the components of the acoustic signal Sin.
  • the notch formation equalizer 141L supplies the acoustic signal Sin ′ obtained as a result of the notch formation process to the binaural signal generation unit 142R.
  • the notch forming equalizers 141L and 141R form notches in the same band as the notch of the sound source reverse side HRTF in the sound signal Sin on the sound source side and the sound source reverse side. That is, the notch formation equalizer 141L attenuates a component in the same band as the first notch and the second notch of the head acoustic transfer function HR that is the sound source reverse side HRTF of the virtual speaker 113 among the components of the acoustic signal Sin. Then, the notch formation equalizer 141L supplies the acoustic signal Sin ′ obtained as a result to the binaural signal generation unit 142L.
  • the notch formation equalizer 141R attenuates components in the same band as the first notch and the second notch of the head acoustic transfer function HR among the components of the acoustic signal Sin. Then, the notch formation equalizer 141R supplies the acoustic signal Sin ′ obtained as a result thereof to the binaural signal generation unit 142R.
  • the binaural signal generators 142L and 142R perform binaural processing. Specifically, the binaural signal generation unit 142L generates the binaural signal BL by superimposing the head acoustic transfer function HL on the acoustic signal Sin ′. The binaural signal generation unit 142L supplies the generated binaural signal BL to the signal processing unit 151L and the signal processing unit 152L.
  • the binaural signal generator 142R generates the binaural signal BR by superimposing the head acoustic transfer function HR on the acoustic signal Sin ′.
  • the binaural signal generation unit 142R supplies the generated binaural signal BR to the signal processing unit 151R and the signal processing unit 152R.
  • the binaural signal BR is a signal obtained by superimposing the HRTF with the first notch and the second notch of the sound source reverse side HRTF (head acoustic transfer function HR) further deeper on the acoustic signal Sin. Therefore, the binaural signal BR has a smaller band component in which the first notch and the second notch appear in the sound source reverse side HRTF than the binaural signal BR in the acoustic signal processing system 101L.
  • or S25 the process similar to FIG.4 S3 thru
  • the first notch and the second notch are present in the binaural signal BR in the sound source reverse side HRTF (head acoustic transfer function HR) as compared with the acoustic signal processing system 101L.
  • the appearing band component becomes smaller. Therefore, the component of the same band of the acoustic signal SRout2 that is finally supplied to the speaker 112R is also reduced, and the level of the same band of the sound output from the speaker 112R is also reduced.
  • the level of the first notch and the second notch of the HRTF on the opposite side of the sound source is originally small, so even if it is further reduced, the sound quality is not adversely affected.
  • FIG. 8 is a diagram illustrating a functional configuration example of an acoustic signal processing system 201 ⁇ / b> R that is a modification example of the second embodiment of the present technology.
  • portions corresponding to those in FIGS. 5 and 6 are denoted by the same reference numerals, and description of portions having the same processing will be omitted as appropriate because the description will be repeated.
  • the acoustic signal processing system 201R is different from the acoustic signal processing system 201L in FIG. 6 in that the auxiliary signal synthesis unit 122R described above with reference to FIG. 5 is provided instead of the auxiliary signal synthesis unit 122L. .
  • the acoustic signal processing system 201R can stably localize the virtual speaker 113 at a position deviated to the right from the median plane of the listener P by the same method as the acoustic signal processing system 201L.
  • FIG. 9 is a diagram illustrating a functional configuration example of the acoustic signal processing system 301L according to the third embodiment of the present technology.
  • parts corresponding to those in FIG. 6 are denoted by the same reference numerals, and description of parts having the same processing will be omitted as appropriate because the description will be repeated.
  • the acoustic signal processing system 301L is a system that can localize the virtual speaker 113 at a position off to the left from the median plane of the listener P at a predetermined listening position, similarly to the acoustic signal processing systems 101L and 201L.
  • the acoustic signal processing system 301L is different from the acoustic signal processing system 201L in FIG. 6 in that an acoustic signal processing unit 311L is provided instead of the acoustic signal processing unit 211L.
  • the acoustic signal processing unit 311L is different from the acoustic signal processing unit 211L in that a trans-oral processing unit 321 is provided instead of the trans-oral processing unit 221.
  • the trans-oral processing unit 321 is configured to include a notch formation equalizer 141 and a trans-oral integration processing unit 331.
  • the trans-oral integration processing unit 331 is configured to include signal processing units 351L and 351R.
  • the notch formation equalizer 141 is an equalizer similar to the notch formation equalizers 141L and 141R in FIG. Therefore, the notch formation equalizer 141 outputs the same acoustic signal Sin ′ as that of the notch formation equalizers 141L and 141R and supplies it to the signal processing units 351L and 351R.
  • the transoral integration processing unit 331 performs integration processing of binaural processing and crosstalk correction processing on the acoustic signal Sin ′.
  • the signal processing unit 351L performs the process represented by the following equation (6) on the acoustic signal Sin ′ to generate the acoustic signal SLout1.
  • the acoustic signal SLout1 is the same signal as the acoustic signal SLout1 in the acoustic signal processing system 201L.
  • the signal processing unit 351R performs the process represented by the following equation (7) on the acoustic signal Sin ′ to generate the acoustic signal SRout1.
  • SRout1 ⁇ HR * f1 (G1, G2) + HL * f2 (G1, G2) ⁇ ⁇ Sin '(7)
  • the acoustic signal SRout1 is the same signal as the acoustic signal SRout1 in the acoustic signal processing system 201L.
  • the notch formation equalizer 141 is mounted outside the signal processing units 351L and 351R, there is no path for performing the notch forming process only on the sound signal Sin on the sound source side. Therefore, in the acoustic signal processing unit 311L, the notch formation equalizer 141 is provided in the preceding stage of the signal processing unit 351L and the signal processing unit 351R, and the notch formation processing is performed on the acoustic signal Sin on both the sound source side and the sound source opposite side, The data is supplied to the processing units 351L and 351R. That is, similar to the acoustic signal processing system 201L, the HRTF having the first notch and the second notch of the sound source reverse side HRTF substantially deepened is superimposed on the sound signal Sin on the reverse side of the sound source.
  • the notch forming equalizer 141 forms notches in the same band as the notch of the sound source reverse side HRTF in the sound signal Sin on the sound source side and the sound source reverse side. That is, the notch formation equalizer 141 attenuates components in the same band as the first notch and the second notch of the sound source reverse side HRTF (head acoustic transfer function HR) among the components of the acoustic signal Sin.
  • the notch formation equalizer 141 supplies the acoustic signal Sin ′ obtained as a result to the signal processing units 351L and 351R.
  • the transoral integration processing unit 331 performs a transoral integration process.
  • the signal processing unit 351L performs an integrated process of the binauralization process and the crosstalk correction process expressed by the above-described equation (6) on the acoustic signal Sin ′ to generate the acoustic signal SLout1. Then, the signal processing unit 351L supplies the acoustic signal SLout1 to the speaker 112L and the auxiliary signal generation unit 161L.
  • the signal processing unit 351R performs an integrated process of the binauralization process and the crosstalk correction process expressed by the above-described equation (7) on the acoustic signal Sin ′ to generate the acoustic signal SRout1. Then, the signal processing unit 351R supplies the acoustic signal SRout1 to the adding unit 162R.
  • steps S43 and S44 processing similar to that in steps S4 and S5 in FIG. 4 is performed, and the acoustic signal processing ends.
  • the signal processing load is generally reduced as compared with the acoustic signal processing system 201L.
  • FIG. 11 is a diagram illustrating a functional configuration example of an acoustic signal processing system 201 ⁇ / b> R that is a modification example of the third embodiment of the present technology.
  • portions corresponding to those in FIGS. 5 and 9 are denoted by the same reference numerals, and description of portions having the same processing will be omitted as appropriate because the description will be repeated.
  • the acoustic signal processing system 301R is different from the acoustic signal processing system 301L in FIG. 9 in that the auxiliary signal synthesis unit 122R described above with reference to FIG. 5 is provided instead of the auxiliary signal synthesis unit 122L. .
  • the acoustic signal processing system 301R can stably localize the virtual speaker 113 at a position deviated to the right from the median plane of the listener P by the same method as the acoustic signal processing system 301L.
  • each acoustic signal processing unit may be provided in parallel for each virtual speaker by any combination of 311L and the acoustic signal processing unit 311R in FIG.
  • the sound source side HRTF and the sound source reverse side HRTF corresponding to the corresponding virtual speaker are applied to each acoustic signal processing unit.
  • the sound signal for the left speaker is added and supplied to the left speaker
  • the sound signal for the right speaker is added and supplied to the right speaker.
  • FIG. 12 shows an example of the functional configuration of the audio system 401 in which sound can be virtually output from two virtual speakers at the upper left diagonally and upper right diagonally of the predetermined listening position using the left and right front speakers. It is a block diagram which shows typically.
  • the audio system 401 is configured to include a playback device 411, an AV (Audio / Visual) amplifier 412, front speakers 413L and 413R, a center speaker 414, and rear speakers 415L and 415R.
  • AV Audio / Visual
  • the playback device 411 is a playback device that can play back sound signals of at least six channels of front left, front right, front center, rear left, rear right, front left upper, and front right upper.
  • the playback device 411 includes a front left acoustic signal FL, a front right acoustic signal FR, a front center acoustic signal C, which are obtained by reproducing six-channel acoustic signals recorded on the recording medium 402.
  • the rear left acoustic signal RL, the rear right acoustic signal RR, the front left diagonal upper acoustic signal FHL, and the front right diagonal upper acoustic signal FHR are output.
  • the AV amplifier 412 is configured to include acoustic signal processing units 421L and 421R, an adding unit 422, and an amplifying unit 423.
  • Adder 422 is configured to include adders 422L and 422R.
  • the acoustic signal processing unit 421L is configured by the acoustic signal processing unit 111L in FIG. 3, the acoustic signal processing unit 211L in FIG. 6, or the acoustic signal processing unit 311L in FIG.
  • the acoustic signal processing unit 421L corresponds to the front left diagonal upper virtual speaker, and the sound source side HRTF and the sound source reverse side HRTF corresponding to the virtual speaker are applied.
  • the acoustic signal processing unit 421L performs the acoustic signal processing described above with reference to FIG. 4, FIG. 7, or FIG. 10 on the acoustic signal FHL, and generates the acoustic signals FHLL and FHLR obtained as a result.
  • the acoustic signal FHLL corresponds to the acoustic signal SLout1 in FIGS. 3, 6, and 9, and the acoustic signal FHLR corresponds to the acoustic signal SRout2 in FIGS.
  • the acoustic signal processing unit 421L supplies the acoustic signal FHLL to the adding unit 422L and supplies the acoustic signal FHLR to the adding unit 422R.
  • the acoustic signal processing unit 421R is configured by the acoustic signal processing unit 111R in FIG. 5, the acoustic signal processing unit 211R in FIG. 8, or the acoustic signal processing unit 311R in FIG.
  • the acoustic signal processing unit 421R corresponds to a virtual speaker for obliquely upper right front, and a sound source side HRTF and a sound source reverse side HRTF corresponding to the virtual speaker are applied.
  • the acoustic signal processing unit 421R performs the acoustic signal processing described above with reference to FIG. 4, FIG. 7, or FIG. 11 on the acoustic signal FHR, and generates the acoustic signals FHRL and FHRR obtained as a result.
  • the acoustic signal FHRL corresponds to the acoustic signal SLout2 in FIGS. 5, 8 and 11, and the acoustic signal FHRR corresponds to the acoustic signal SRout1 in FIGS.
  • the acoustic signal processing unit 421L supplies the acoustic signal FHRL to the adding unit 422L, and supplies the acoustic signal FHRR to the adding unit 422R.
  • the addition unit 422L generates the acoustic signal FLM by adding the acoustic signal FL, the acoustic signal FHLL, and the acoustic signal FHRL, and supplies the acoustic signal FLM to the amplification unit 423.
  • the adding unit 422R generates the acoustic signal FRM by adding the acoustic signal FR, the acoustic signal FHLR, and the acoustic signal FHRR, and supplies the acoustic signal FRM to the amplifying unit 423.
  • the amplifying unit 423 amplifies the acoustic signal FLM through the acoustic signal RR and supplies them to the front speaker 413L through the rear speaker 415R, respectively.
  • the front speaker 413L and the front speaker 413R are arranged symmetrically in front of a predetermined listening position, for example.
  • the front speaker 413L outputs a sound based on the acoustic signal FLM
  • the front speaker 413R outputs a sound based on the acoustic signal FRM.
  • the listener who is at the listening position outputs sound not only from the front speakers 413L and 413R but also from virtual speakers virtually arranged at two locations on the front left diagonally upper and front right diagonally. feel.
  • the center speaker 414 is disposed, for example, at the center in front of the listening position.
  • the center speaker 414 outputs a sound based on the acoustic signal C.
  • the rear speaker 415L and the rear speaker 415R are, for example, arranged symmetrically behind the listening position.
  • the rear speaker 415L outputs a sound based on the acoustic signal RL
  • the rear speaker 415R outputs a sound based on the acoustic signal RR.
  • an acoustic signal processing unit 451 shown in FIG. 13 can be provided instead of the acoustic signal processing units 421L and 421R.
  • portions corresponding to those in FIGS. 3 and 5 are denoted by the same reference numerals, and description of portions having the same processing will be omitted as appropriate because the description will be repeated.
  • the acoustic signal processing unit 451 is configured to include an auxiliary signal synthesis unit 461 and transoral processing units 462L and 462R.
  • the auxiliary signal synthesis unit 461 is configured to include auxiliary signal generation units 161L and 161R and addition units 162L and 162R.
  • the auxiliary signal generator 161L generates an auxiliary signal FHLsub by extracting or attenuating a signal in a predetermined band of the acoustic signal FHL, and adjusts the signal level of the auxiliary signal FHLsub as necessary.
  • the auxiliary signal generation unit 161L supplies the generated auxiliary signal FHLsub to the addition unit 162R.
  • the auxiliary signal generator 161R generates the auxiliary signal FHRsub by extracting or attenuating a signal in a predetermined band of the acoustic signal FHR, and adjusts the signal level of the auxiliary signal FHRsub as necessary.
  • the auxiliary signal generation unit 161R supplies the generated auxiliary signal FHRsub to the addition unit 162R.
  • the adding unit 162L generates the acoustic signal FHL ′ by adding the acoustic signal FHL and the auxiliary signal FHRsub.
  • the adding unit 162L supplies the acoustic signal FHL ′ to the transoral processing unit 462L.
  • the adding unit 162R generates the acoustic signal FHR ′ by adding the acoustic signal FHR and the auxiliary signal FHLsub.
  • the adding unit 162R supplies the acoustic signal FHR ′ to the transoral processing unit 462R.
  • the trans-oral processing unit 462L includes any of the trans-oral processing unit 121L in FIG. 3, the trans-oral processing unit 221 in FIG. 6, or the trans-oral processing unit 321 in FIG.
  • the trans-oral processing unit 462L performs trans-oral processing on the acoustic signal FHL ′ to generate the acoustic signal FHLL and the acoustic signal FHLR.
  • the trans-oral processing unit 462L supplies the acoustic signal FHLL to the adding unit 422L and supplies the acoustic signal FHLR to the adding unit 422R.
  • the acoustic signal FHLL corresponds to the acoustic signal SLout1 in FIGS. 3, 6, and 9, and the acoustic signal FHLR corresponds to the acoustic signal SRout1 in FIGS. 3, 6, and 9.
  • the trans-oral processing unit 462R is configured by any of the trans-oral processing unit 121R in FIG. 5, the trans-oral processing unit 221 in FIG. 8, or the trans-oral processing unit 321 in FIG.
  • the trans-oral processing unit 462R performs trans-oral processing on the acoustic signal FHR ′ to generate the acoustic signal FHRL and the acoustic signal FHRR.
  • the trans-oral processing unit 462R supplies the acoustic signal FHRL to the adding unit 422L, and supplies the acoustic signal FHRR to the adding unit 422R.
  • the acoustic signal FHRL corresponds to the acoustic signal SLout1 of FIGS. 5, 8, and 11, and the acoustic signal FHLR corresponds to the acoustic signal SRout1 of FIGS.
  • the acoustic signal processing unit 111L, the acoustic signal processing unit 211L, or the acoustic signal processing unit 311L is provided in parallel for each virtual speaker.
  • the acoustic signal SLout1 output from each acoustic signal processing unit is added and supplied to the left speaker
  • the acoustic signal SRout2 output from each acoustic signal processing unit is added and supplied to the right speaker.
  • the auxiliary signal synthesis unit 122L can be shared.
  • the acoustic signal processing unit 111R, the acoustic signal processing unit 211R, or the acoustic signal processing unit 311R is provided for each virtual speaker. What is necessary is just to provide in parallel.
  • the acoustic signal SLout2 output from each acoustic signal processing unit is added and supplied to the left speaker, and the acoustic signal SRout1 output from each acoustic signal processing unit is added and supplied to the right speaker.
  • the auxiliary signal synthesis unit 122R can be shared.
  • the crosstalk correction processing unit 132 can be shared.
  • ⁇ Modification 1 Modification of the configuration of the acoustic signal processor ⁇
  • the auxiliary signal synthesizer 501L in FIG. 14 may be used instead of the auxiliary signal synthesizer 122L in FIGS.
  • portions corresponding to those in FIG. 3 are denoted by the same reference numerals, and description of portions having the same processing will be omitted as appropriate because the description will be repeated.
  • the auxiliary signal synthesis unit 501L is different from the auxiliary signal synthesis unit 122L in FIG. 3 in that delay units 511L and 511R are added.
  • the delay unit 511L delays the acoustic signal SLout1 supplied from the crosstalk correction processing unit 132 of FIG. 3 or FIG. 6 or the transoral integration processing unit 331 of FIG. 9 by a predetermined time after generating the auxiliary signal SLsub. And then supplied to the speaker 112L.
  • the delay unit 511R has the delay unit 511L before adding the auxiliary signal SLsub to the acoustic signal SRout1 supplied from the crosstalk correction processing unit 132 of FIG. 3 or FIG. 6 or the transoral integration processing unit 331 of FIG. Is supplied to the adder 162R after being delayed by the same time as.
  • a sound based on the acoustic signal SLout1 (hereinafter referred to as the left main sound), a sound based on the acoustic signal SRout1 (hereinafter referred to as the right main sound), and a sound based on the auxiliary signal SLsub (Hereinafter referred to as auxiliary sound) is output from the speakers 112L and 112R almost simultaneously.
  • the left main sound first reaches the left ear EL of the listener P, and then the right main sound and the auxiliary sound arrive almost simultaneously.
  • the right main voice and the auxiliary voice first reach the listener P's right ear ER almost simultaneously, and then the left main voice arrives.
  • the delay units 511L and 511R adjust so that the auxiliary sound reaches the left ear EL of the listener P ahead of the left main sound by a predetermined time (for example, several milliseconds).
  • a predetermined time for example, several milliseconds.
  • a delay unit can be provided for the auxiliary signal synthesis unit 122R of FIG. 5, FIG. 8, or FIG. 11, similarly to the auxiliary signal synthesis unit 501L of FIG. That is, it is possible to provide a delay unit before the adder 162L, and to provide a delay unit between the adder 153R and the speaker 112R and after branching to the auxiliary signal generator 161R.
  • the order of the notch formation equalizer 141 and the binaural signal generation unit 142 is changed. It is possible to replace it.
  • the notch formation equalizer 141L and the notch formation equalizer 141R can be combined into one.
  • ⁇ Modification 2 Modification of the position of the virtual speaker ⁇
  • the present technology is effective in all cases where a virtual speaker is arranged at a position deviated left and right from the median plane of the listening position.
  • the present technology is also effective when the virtual speaker is arranged on the upper left side or the upper right side behind the listening position.
  • the present technology is also effective when the virtual speaker is arranged diagonally down left or right in front of the listening position, or diagonally down left or right in the back of the listening position.
  • the present technology is also effective when arranged on the left or right.
  • ⁇ Variation 3 Variation of speaker arrangement used for generating virtual speakers ⁇
  • a virtual speaker is generated using speakers arranged symmetrically in front of the listening position.
  • the speakers asymmetrically in front of the listening position.
  • the speaker does not necessarily have to be arranged in front of the listening position, and the speaker can be arranged in a place other than the front of the listening position (for example, behind the listening position).
  • the function used for the crosstalk correction process needs to be appropriately changed depending on the location where the speaker is arranged.
  • the present technology can be applied to various devices and systems for realizing the virtual surround system, such as the AV amplifier described above.
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing various programs by installing a computer incorporated in dedicated hardware.
  • FIG. 15 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input / output interface 805 is connected to the bus 804.
  • An input unit 806, an output unit 807, a storage unit 808, a communication unit 809, and a drive 810 are connected to the input / output interface 805.
  • the input unit 806 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 807 includes a display, a speaker, and the like.
  • the storage unit 808 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 809 includes a network interface or the like.
  • the drive 810 drives a removable medium 811 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 801 loads the program stored in the storage unit 808 to the RAM 803 via the input / output interface 805 and the bus 804 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 801) can be provided by being recorded on a removable medium 811 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 808 via the input / output interface 805 by attaching the removable medium 811 to the drive 810.
  • the program can be received by the communication unit 809 via a wired or wireless transmission medium and installed in the storage unit 808.
  • the program can be installed in the ROM 802 or the storage unit 808 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can take the following configurations.
  • a first head acoustic transfer function between the ear far from the first virtual sound source and the ear closer to the first virtual sound source of both ears of the listener and the first virtual sound source By performing predetermined transoral processing using the second head acoustic transfer function with the virtual sound source, the amplitude of the first acoustic signal and the first head acoustic transfer function has a predetermined depth.
  • the second acoustic signal in which the components of the lowest first band and the second lowest second band in the band where the notch, which is a negative peak that is greater than or equal to the predetermined frequency, appears, are attenuated.
  • First transo to generate And Lal processing unit A first auxiliary signal synthesizing unit that generates a third acoustic signal by adding a first auxiliary signal composed of a component of a predetermined band of the second acoustic signal to the first acoustic signal.
  • the band of the first auxiliary signal is a third head between one speaker of two speakers arranged on the left and right with respect to the listening position and one ear of both ears of the listener.
  • a first delay unit that delays the first acoustic signal for a predetermined time before the addition of the first auxiliary signal;
  • the acoustic signal processing device according to (1) or (2), further including: a second delay unit that delays the second acoustic signal after the generation of the first auxiliary signal for the predetermined time.
  • the acoustic signal processing device according to any one of (1) to (3), wherein the first auxiliary signal synthesis unit adjusts a level of the first auxiliary signal before adding the first auxiliary signal to the first acoustic signal.
  • a second transoral processing unit that generates a fifth acoustic signal in which the components of the third and lowest third bands at frequencies and above are attenuated;
  • a second auxiliary signal that generates a sixth acoustic signal by adding a second auxiliary signal having a component in the same band as the first auxiliary signal of the fifth acoustic signal to the fourth acoustic signal.
  • a synthesis unit When the first virtual sound source and the second virtual sound source are divided into left and right with respect to the median plane, the third acoustic signal and the fifth acoustic signal are added, and the second acoustic signal and the second acoustic signal When the sixth sound signal is added and the first virtual sound source and the second virtual sound source are on the same side with respect to the median plane, the third sound signal and the sixth sound signal are The acoustic signal processing device according to any one of (1) to (4), further including an adding unit that adds and adds the second acoustic signal and the fifth acoustic signal.
  • the acoustic signal processing device includes: A first binaural processing unit that generates a first binaural signal in which the first head acoustic transfer function is superimposed on the first input signal; A second binaural signal is generated by attenuating the components of the first band and the second band among the components of the signal in which the second head acoustic transfer function is superimposed on the first input signal.
  • a second binaural processing unit With respect to the first binaural signal and the second binaural signal, of the two speakers arranged on the left and right with respect to the listening position, on the opposite side to the first virtual sound source with respect to the median plane Acoustic transfer characteristics between a certain speaker and an ear far from the first virtual sound source, from the speaker on the virtual sound source side with respect to the median plane of the two speakers and the first virtual sound source Sound transfer characteristics between the ear and the near ear, crosstalk from the speaker on the opposite side to the first virtual sound source to the ear on the near side from the first virtual sound source, and the speaker on the virtual sound source side
  • a crosstalk correction processing unit that performs a crosstalk correction process for canceling crosstalk from the first virtual sound source to a far ear from the first virtual sound source, according to any one of the above (1) to (6).
  • the first binaural processing unit generates a third binaural signal obtained by attenuating the components of the first band and the second band among the components of the first binaural signal;
  • the acoustic signal processing device according to (7), wherein the crosstalk correction processing unit performs the crosstalk correction processing on the second binaural signal and the third binaural signal.
  • the first transoral processing unit includes: An attenuation unit that generates an attenuation signal in which components of the first band and the second band of the first input signal are attenuated; A process of generating a first binaural signal in which the first head acoustic transfer function is superimposed on the attenuation signal, and a second binaural signal in which the second head acoustic transfer function is superimposed on the attenuation signal; In addition, the first binaural signal and the second binaural signal are opposite to the first virtual sound source on the basis of the median plane of two speakers arranged on the left and right with respect to the listening position.
  • a first composite signal is generated by adding a first auxiliary signal consisting of a component of a predetermined band of the second input signal that is a signal, and is the same as the first auxiliary signal of the first input signal
  • An auxiliary signal synthesizer for generating a second synthesized signal by adding a second auxiliary signal comprising a band component to the second input signal;
  • the first head acoustic transfer function between the ear far from the first virtual sound source and the first virtual sound source, and the listener's ears
  • a predetermined transoral process using a second head acoustic transfer function between the ear closer to the first virtual sound source and the first virtual sound source is performed on the first synthesized signal.
  • the lowest is not lower than the predetermined first frequency.
  • a first transoral processing unit that generates a second acoustic signal in which a component of the first band and the second lowest second band are attenuated;
  • a third head acoustic transfer function between the second virtual sound source and an ear far from the second virtual sound source of both ears of the listener, and the second of the listener's ears
  • An acoustic signal processing device including: a second transoral processing unit that generates an attenuated fourth acoustic signal. (13) When the first virtual sound source and the second virtual sound source are divided into left and right with respect to the median plane, the first acoustic signal and the fourth acoustic signal are added, and the second acoustic signal and the second acoustic signal When a third acoustic signal is added and the first virtual sound source and the second virtual sound source are on the same side with respect to the median plane, the first acoustic signal and the third acoustic signal are The acoustic signal processing device according to (12), further including an addition unit that adds and adds the second acoustic signal and the fourth acoustic signal.
  • the band of the first auxiliary signal and the second auxiliary signal includes one speaker of two speakers arranged on the left and right with respect to the listening position and one ear of both ears of the listener.
  • the band in which the notch appears in the fifth head acoustic transfer function between the lowest band and the second lowest band above a predetermined third frequency the other speaker of the two speakers and the listener The lowest band and the second lowest band above a predetermined fourth frequency among the bands in which the notch appears in the sixth head acoustic transfer function between the other ears of the two ears, In the seventh head acoustic transfer function between the speaker and the other ear, the lowest band and the second lowest band above the predetermined fifth frequency among the bands in which the notches appear.
  • the acoustic signal processing device including at least.
  • the first frequency is a frequency at which a positive peak appears in the vicinity of 4 kHz of the first head acoustic transfer function
  • the acoustic signal processing device according to any one of (12) to (14), wherein the second frequency is a frequency at which a positive peak appears in the vicinity of 4 kHz of the third head acoustic transfer function.
  • the first transoral processing unit includes: A first binaural processing unit that generates a first binaural signal in which the first head acoustic transfer function is superimposed on the first composite signal; A second binaural signal is generated by attenuating the components of the first band and the second band among the components of the signal in which the second head acoustic transfer function is superimposed on the first synthesized signal.
  • a second binaural processing unit With respect to the first binaural signal and the second binaural signal, of the two speakers arranged on the left and right with respect to the listening position, on the opposite side to the first virtual sound source with respect to the median plane Acoustic transfer characteristics between a certain speaker and an ear far from the first virtual sound source, the speaker on the first virtual sound source side with respect to the median plane of the two speakers, and the first Acoustic transfer characteristics between the ears closer to the virtual sound source, crosstalk from the speaker on the opposite side of the first virtual sound source to the ear closer to the first virtual sound source, and the first A first crosstalk correction processing unit that performs a crosstalk correction process for canceling crosstalk from a speaker on the virtual sound source side to an ear far from the first virtual sound source,
  • the second transoral processing unit includes: A third binaural processing unit that generates a third binaural signal in which the third head acoustic transfer function is superimposed on the second synthesized signal; A fourth binaural signal is generated by attenuating the components of the
  • a fourth binaural processing unit With respect to the third binaural signal and the fourth binaural signal, from the speaker on the opposite side of the second virtual sound source with respect to the median plane of the two speakers and the second virtual sound source Sound transfer characteristics between a far ear and a speaker on the second virtual sound source side with respect to the median plane of the two speakers and an ear closer to the second virtual sound source Sound transmission characteristics, crosstalk from the speaker on the opposite side to the second virtual sound source to the ear closer to the second virtual sound source, and the second from the speaker on the second virtual sound source side.
  • the acoustic signal processing device further including: a second crosstalk correction processing unit that performs a crosstalk correction process for canceling crosstalk to a far ear from the virtual sound source .
  • the first binaural processing unit generates a fifth binaural signal obtained by attenuating the components of the first band and the second band among the components of the first binaural signal;
  • the first crosstalk correction processing unit performs the crosstalk correction processing on the second binaural signal and the fifth binaural signal,
  • the third binaural processing unit generates a sixth binaural signal obtained by attenuating the components of the third band and the fourth band among the components of the third binaural signal;
  • the acoustic signal processing device (16), wherein the second crosstalk correction processing unit performs the crosstalk correction processing on the fourth binaural signal and the sixth binaural signal.
  • the first transoral processing unit includes: A first attenuator for generating a first attenuated signal obtained by attenuating the components of the first band and the second band of the first combined signal; A first binaural signal in which the first head acoustic transfer function is superimposed on the first attenuation signal, and a second binaural in which the second head acoustic transfer function is superimposed on the first attenuation signal Processing for generating a signal, and the first binaural signal and the second binaural signal with respect to the median plane of the two speakers arranged on the left and right with respect to the listening position.
  • the second transoral processing unit includes: A second attenuator for generating a second attenuated signal obtained by attenuating the components of the third band and the fourth band of the second combined signal; A third binaural signal in which the third head acoustic transfer function is superimposed on the second attenuation signal, and a fourth binaural in which the fourth head acoustic transfer function is superimposed on the second attenuation signal Processing for generating a signal
  • the sound for the second virtual sound source deviated to the left or right from the median plane is added to the first input signal, which is the sound signal for the first virtual sound source deviated left or right from the median plane at the predetermined listening position.
  • a first composite signal is generated by adding a first auxiliary signal consisting of a component of a predetermined band of the second input signal that is a signal, and is the same as the first auxiliary signal of the first input signal
  • a predetermined transoral process using a second head acoustic transfer function between the ear closer to the first virtual sound source and the first virtual sound source is performed on the first synthesized signal.
  • the lowest is not lower than the predetermined first frequency.
  • a third head acoustic transfer function between the second virtual sound source and an ear far from the second virtual sound source of both ears of the listener, and the second of the listener's ears By performing a predetermined transoral process using a fourth head acoustic transfer function between the ear closer to the virtual sound source and the second virtual sound source on the second synthesized signal, 3 and the components of the lowest third band and the second lowest band in the third head acoustic transfer function where the notch appears in the third and lower head frequencies above a predetermined second frequency.
  • a second transoral processing step of generating an attenuated fourth acoustic signal (20) The sound for the second virtual sound source deviated to the left or right from the median plane is added to the first input signal, which is the sound signal for the first virtual sound source deviated left or right from the median plane at the predetermined listening position.
  • a first composite signal is generated by adding a first auxiliary signal consisting of a component of a predetermined band of the second input signal that is a signal, and is the same as the first auxiliary signal of the first input signal
  • the first head acoustic transfer function between the ear far from the first virtual sound source and the first virtual sound source, and the listener's ears A predetermined transoral process using a second head acoustic transfer function between the ear closer to the first virtual sound source and the first virtual sound source is performed on the first synthesized signal.
  • the lowest is not lower than the predetermined first frequency.
  • a third head acoustic transfer function between the second virtual sound source and an ear far from the second virtual sound source of both ears of the listener, and the second of the listener's ears By performing a predetermined transoral process using a fourth head acoustic transfer function between the ear closer to the virtual sound source and the second virtual sound source on the second synthesized signal, 3 and the components of the lowest third band and the second lowest band in the third head acoustic transfer function where the notch appears in the third and lower head frequencies above a predetermined second frequency.
  • 101L, 101R acoustic signal processing system 111L, 111R acoustic signal processing unit, 112L, 112R speaker, 113 virtual speaker, 121L, 121R transoral processing unit, 122L, 122R auxiliary signal synthesis unit, 131L, 131R binauralization processing unit, 132 Crosstalk correction processing unit, 141, 141L, 141R notch formation equalizer, 142L, 142R binaural signal generation unit, 151L to 152R signal processing unit, 153L, 153R addition unit, 161L, 161R auxiliary signal generation unit, 162L, 162R addition unit, 201L, 201R acoustic signal processing system, 211L, 211R acoustic signal processing unit, 221 transoral processing unit, 231 bineau Processing unit, 301L, 301R acoustic signal processing system, 311L, 311R acoustic signal processing unit, 321 transoral processing unit, 331 transoral

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

 本技術は、リスナーの正中面から左または右に外れた位置の音像の定位感を向上させることができるようにする音響信号処理装置、音響信号処理方法、および、プログラムに関する。 トランスオーラル処理部は、入力信号に対して、音源逆側HRTFおよび音源側HRTFを用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、音源逆側HRTFにおいてノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する。補助信号合成部は、第2の音響信号の所定の帯域の成分からなる第1の補助信号を第1の音響信号に加算することにより第3の音響信号を生成する。本技術は、例えば、AVアンプリファイアに適用できる。

Description

音響信号処理装置、音響信号処理方法、および、プログラム
 本技術は、音響信号処理装置、音響信号処理方法、および、プログラムに関し、特に、仮想サラウンドを実現するための音響信号処理装置、音響信号処理方法、および、プログラムに関する。
 従来、リスナーの正中面から左または右に外れた位置の音像の定位感を向上させる仮想サラウンド方式が提案されている(例えば、特許文献1参照)。
特開2013-110682号公報
 しかしながら、特許文献1に記載の技術では、例えば、一方のスピーカへの出力信号を生成する音像定位フィルタのゲインが、他方のスピーカへの出力信号を生成する音像定位フィルタのゲインと比較して有意に小さくなると、音像定位の効果が低下する。
 そこで、本技術は、リスナーの正中面から左または右に外れた位置の音像の定位感を向上させるようにするものである。
 本技術の第1の側面の音響信号処理装置は、所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源から遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源から近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理部と、前記第2の音響信号の所定の帯域の成分からなる第1の補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する第1の補助信号合成部とを含む。
 前記第1の補助信号の帯域に、前記リスニング位置に対して左右に配置された2つのスピーカのうちの一方のスピーカと前記リスナーの両耳のうちの一方の耳との間の第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い帯域および2番目に低い帯域、前記2つのスピーカのうちの他方のスピーカと前記リスナーの両耳のうちの他方の耳との間の第4の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第3の周波数以上において最も低い帯域および2番目に低い帯域、前記一方のスピーカと前記他方の耳との間の第5の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第4の周波数以上において最も低い帯域および2番目に低い帯域、並びに、前記他方のスピーカと前記一方の耳との間の第6の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第5の周波数以上において最も低い帯域および2番目に低い帯域を少なくとも含めるようにすることができる。
 前記第1の補助信号の加算前に前記第1の音響信号を所定の時間遅延させる第1の遅延部と、前記第1の補助信号の生成後に前記第2の音響信号を前記所定の時間遅延させる第2の遅延部とをさらに設けることができる。
 前記第1の補助信号合成部には、前記第1の音響信号に加算する前に前記第1の補助信号のレベルを調整させることができる。
 前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号に対して、前記リスナーの両耳のうち前記第2の仮想音源から遠い方の耳と前記第2の仮想音源との間の第7の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源から近い方の耳と前記第2の仮想音源との間の第8の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第4の音響信号、並びに、前記第7の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第6の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第5の音響信号を生成する第2のトランスオーラル処理部と、前記第5の音響信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第4の音響信号に加算することにより第6の音響信号を生成する第2の補助信号合成部と、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして左右に分かれる場合、前記3の音響信号と前記第5の音響信号を加算し、前記第2の音響信号と前記第6の音響信号を加算し、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして同じ側にある場合、前記第3の音響信号と前記第6の音響信号を加算し、前記第2の音響信号と前記第5の音響信号を加算する加算部とをさらに設けることができる。
 前記第1の周波数を、前記第1の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数とすることができる。
 前記第1のトランスオーラル処理部には、前記第1の頭部音響伝達関数を前記第1の入力信号に重畳した第1のバイノーラル信号を生成する第1のバイノーラル化処理部と、前記第2の頭部音響伝達関数を前記第1の入力信号に重畳した信号の成分のうち、前記第1の帯域および前記第2の帯域の成分を減衰させた第2のバイノーラル信号を生成する第2のバイノーラル化処理部と、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行うクロストーク補正処理部とを設けることができる。
 前記第1のバイノーラル化処理部には、前記第1のバイノーラル信号の成分のうち前記第1の帯域および前記第2の帯域の成分を減衰させた第3のバイノーラル信号を生成させ、前記クロストーク補正処理部には、前記第2のバイノーラル信号および前記第3のバイノーラル信号に対して前記クロストーク補正処理を行わせることができる。
 前記第1のトランスオーラル処理部には、前記第1の入力信号の前記第1の帯域および前記第2の帯域の成分を減衰させた減衰信号を生成する減衰部と、前記第1の頭部音響伝達関数を前記減衰信号に重畳した第1のバイノーラル信号、および、前記第2の頭部音響伝達関数を前記減衰信号に重畳した第2のバイノーラル信号を生成する処理、並びに、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う信号処理部とを設けることができる。
 本技術の第1の側面の音響信号処理方法は、所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成するトランスオーラル処理ステップと、前記第2の音響信号の所定の帯域の成分からなる補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する補助信号合成ステップとを含む。
 本技術の第1の側面のプログラムは、所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成するトランスオーラル処理ステップと、前記第2の音響信号の所定の帯域の成分からなる補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する補助信号合成ステップとを含む処理をコンピュータに実行させる。
 本技術の第2の側面の音響信号処理装置は、所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成部と、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理部と、前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理部とを含む。
 前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして左右に分かれる場合、前記1の音響信号と前記第4の音響信号を加算し、前記第2の音響信号と前記第3の音響信号を加算し、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして同じ側にある場合、前記第1の音響信号と前記第3の音響信号を加算し、前記第2の音響信号と前記第4の音響信号を加算する加算部をさらに設けることができる。
 前記第1の補助信号および前記第2の補助信号の帯域には、前記リスニング位置に対して左右に配置された2つのスピーカのうちの一方のスピーカと前記リスナーの両耳のうちの一方の耳との間の第5の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第3の周波数以上において最も低い帯域および2番目に低い帯域、前記2つのスピーカのうちの他方のスピーカと前記リスナーの両耳のうちの他方の耳との間の第6の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第4の周波数以上において最も低い帯域および2番目に低い帯域、前記一方のスピーカと前記他方の耳との間の第7の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第5の周波数以上において最も低い帯域および2番目に低い帯域、並びに、前記他方のスピーカと前記一方の耳との間の第8の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第6の周波数以上において最も低い帯域および2番目に低い帯域を少なくとも含ませることができる。
 前記第1の周波数を、前記第1の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数とし、前記第2の周波数を、前記第3の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数とすることができる。
 前記第1のトランスオーラル処理部には、前記第1の頭部音響伝達関数を前記第1の合成信号に重畳した第1のバイノーラル信号を生成する第1のバイノーラル化処理部と、前記第2の頭部音響伝達関数を前記第1の合成信号に重畳した信号の成分のうち、前記第1の帯域および前記第2の帯域の成分を減衰させた第2のバイノーラル信号を生成する第2のバイノーラル化処理部と、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記第1の仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行う第1のクロストーク補正処理部とを設けることができ、前記第2のトランスオーラル処理部には、前記第3の頭部音響伝達関数を前記第2の合成信号に重畳した第3のバイノーラル信号を生成する第3のバイノーラル化処理部と、前記第4の頭部音響伝達関数を前記第2の合成信号に重畳した信号の成分のうち、前記第3の帯域および前記第4の帯域の成分を減衰させた第4のバイノーラル信号を生成する第4のバイノーラル化処理部と、前記第3のバイノーラル信号および前記第4のバイノーラル信号に対して、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源と逆側にあるスピーカと前記第2の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源側にあるスピーカと前記第2の仮想音源から近い方の耳との間の音響伝達特性、前記第2の仮想音源と逆側にあるスピーカから前記第2の仮想音源から近い方の耳へのクロストーク、および、前記第2の仮想音源側にあるスピーカから前記第2の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行う第2のクロストーク補正処理部とを設けることができる。
 前記第1のバイノーラル化処理部には、前記第1のバイノーラル信号の成分のうち前記第1の帯域および前記第2の帯域の成分を減衰させた第5のバイノーラル信号を生成させ、前記第1のクロストーク補正処理部には、前記第2のバイノーラル信号および前記第5のバイノーラル信号に対して前記クロストーク補正処理を行わせ、前記第3のバイノーラル化処理部には、前記第3のバイノーラル信号の成分のうち前記第3の帯域および前記第4の帯域の成分を減衰させた第6のバイノーラル信号を生成させ、前記第2のクロストーク補正処理部には、前記第4のバイノーラル信号および前記第6のバイノーラル信号に対して前記クロストーク補正処理を行わせることができる。
 前記第1のトランスオーラル処理部には、前記第1の合成信号の前記第1の帯域および前記第2の帯域の成分を減衰させた第1の減衰信号を生成する第1の減衰部と、前記第1の頭部音響伝達関数を前記第1の減衰信号に重畳した第1のバイノーラル信号、および、前記第2の頭部音響伝達関数を前記第1の減衰信号に重畳した第2のバイノーラル信号を生成する処理、並びに、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記第1の仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う第1の信号処理部とを設けることができ、前記第2のトランスオーラル処理部には、前記第2の合成信号の前記第3の帯域および前記第4の帯域の成分を減衰させた第2の減衰信号を生成する第2の減衰部と、前記第3の頭部音響伝達関数を前記第2の減衰信号に重畳した第3のバイノーラル信号、および、前記第4の頭部音響伝達関数を前記第2の減衰信号に重畳した第4のバイノーラル信号を生成する処理、並びに、前記第3のバイノーラル信号および前記第4のバイノーラル信号に対して、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源と逆側にあるスピーカと前記第2の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源側にあるスピーカと前記第2の仮想音源から近い方の耳との間の音響伝達特性、前記第2の仮想音源と逆側にあるスピーカから前記第2の仮想音源から近い方の耳へのクロストーク、および、前記第2の仮想音源側にあるスピーカから前記第2の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う信号処理部とを設けることができる。
 本技術の第2の側面の音響信号処理方法は、所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成ステップと、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理ステップと、前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理ステップとを含む。
 本技術の第2の側面のプログラムは、所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成ステップと、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理ステップと、前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理ステップとを含む処理をコンピュータに実行させる。
 本技術の第1の側面においては、所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理が行われることにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号が生成され、前記第2の音響信号の所定の帯域の成分からなる補助信号が前記第1の音響信号に加算されることにより第3の音響信号が生成される。
 本技術の第2の側面においては、所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号が加算されることにより第1の合成信号が生成され、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号が前記第2の入力信号に加算されることにより第2の合成信号が生成され、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理が前記第1の合成信号に対して行われることにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号が生成され、前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理が前記第2の合成信号に対して行われることにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号が生成される。
 本技術の第1の側面または第2の側面によれば、リスナーの正中面から左または右に外れた位置に音像を定位させることができる。また、本技術の第1の側面または第2の側面によれば、リスナーの正中面から左または右に外れた位置の音像の定位感を向上させることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
HRTFの一例を示すグラフである。 本技術の基礎となる技術を説明するための図である。 本技術を適用した音響信号処理システムの第1の実施の形態を示す図である。 第1の実施の形態の音響信号処理システムにより実行される音響信号処理を説明するためのフローチャートである。 本技術を適用した音響信号処理システムの第1の実施の形態の変形例を示す図である。 本技術を適用した音響信号処理システムの第2の実施の形態を示す図である。 第2の実施の形態の音響信号処理システムにより実行される音響信号処理を説明するためのフローチャートである。 本技術を適用した音響信号処理システムの第2の実施の形態の変形例を示す図である。 本技術を適用した音響信号処理システムの第3の実施の形態を示す図である。 第3の実施の形態の音響信号処理システムにより実行される音響信号処理を説明するためのフローチャートである。 本技術を適用した音響信号処理システムの第3の実施の形態の変形例を示す図である。 本技術を適用したオーディオシステムの機能の構成例を模式的に示す図である。 本技術を適用したオーディオシステムの音響信号処理部の変形例を示す図である。 補助信号合成部の変形例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.本技術の基礎となる技術の説明
2.第1の実施の形態(ノッチ形成イコライザを音源側にだけ設ける例)
3.第2の実施の形態(ノッチ形成イコライザを音源側と音源逆側に設ける例)
4.第3の実施の形態(トランスオーラル処理を一体化して行う例)
5.第4の実施の形態(仮想スピーカを複数生成する例)
6.変形例
<1.本技術の基礎となる技術の説明>
 まず、図1および図2を参照して、本技術の基礎となる技術について説明する。
 従来、HRTF(Head-Related Transfer Function、頭部音響伝達関数)の振幅-周波数特性において高域側に現れるピークやディップが、音像の上下および前後方向の定位感に対する重要な手がかりになることが知られている(例えば、”飯田他、「空間音響学」、日本、コロナ社、2010年7月”(以下、非特許文献1と称する)の19乃至21ページ参照)。これらのピークやディップは、主に耳の形状による反射、回折、共鳴により形成されると考えられている。
 また、非特許文献1には、図1に示されるように、4kHz近傍に現れる正のピークP1と、ピークP1が現れる周波数以上の帯域において最初に現れる2つのノッチN1,N2が、特に音像の上下前後の定位感に対する寄与率が高いことが指摘されている。
 ここで、本明細書において、ディップとは、HRTFの振幅-周波数特性などの波形図において、周囲と比較して凹んでいる状態の部分を指す。また、ノッチとは、ディップのうち、特に幅(例えば、HRTFの振幅-周波数特性では帯域)が狭く、所定の深さ以上のもの、すなわち、波形図に現れる急峻な負のピークを指す。さらに、以下、図1のノッチN1、ノッチN2を、それぞれ第1ノッチ、第2ノッチとも称する。
 ピークP1は、音源の方向に対する依存性が認められず、音源の方向に関わらずほぼ同じ帯域に現れる。そして、非特許文献1では、ピークP1は、人間の聴覚システムが第1ノッチ、第2ノッチを探索するためのリファレンス信号であり、実質的に上下前後の定位感に寄与する物理パラメータは、第1ノッチ、第2ノッチであると考えられている。
 また、上述した特許文献1には、音源の位置がリスナーの正中面から左または右に外れた場合、音源逆側HRTFに現れる第1ノッチおよび第2ノッチが、音像の上下前後の定位感に対して重要になることが示されている。また、音源逆側HRTFの第1ノッチおよび第2ノッチをリスナーの音源逆側の耳元で再現できれば、音源側の耳元における当該ノッチが現れる帯域の音の振幅は、音像の上下前後の定位感に有意な影響を与えないことが示されている。
 ここで、音源側とは、リスニング位置を基準とする左右方向のうち音源に近い方であり、音源逆側とは、音源から遠い方である。換言すれば、音源側とは、リスニング位置におけるリスナーの正中面を基準にして左右に空間を分けた場合の音源と同じ側であり、音源逆側とは、その逆側である。また、音源側HRTFとは、リスナーの音源側の耳に対応するHRTFのことであり、音源逆側HRTFとは、リスナーの音源逆側の耳に対応するHRTFのことである。なお、以下、リスナーの音源逆側の耳を影側の耳とも称する。
 特許文献1に記載の技術では、以上の理論を利用して、音源側の音響信号に仮想スピーカの音源逆側HRTFに現れる第1ノッチおよび第2ノッチと同帯域のノッチを形成した後、トランスオーラル処理を行う。これにより、音源逆側の耳元において第1ノッチおよび第2ノッチが安定して再現され、仮想スピーカの上下前後の位置が安定する。
 ここで、トランスオーラル処理について簡単に説明する。
 両耳元に配置したマイクロフォンで録音した音をヘッドフォンにより両耳元で再生する手法は、バイノーラル録音/再生方式として知られている。バイノーラル録音により録音された2チャンネルの信号はバイノーラル信号と呼ばれ、人間にとって左右だけでなく上下方向や前後方向の音源の位置に関する音響情報が含まれる。
 また、このバイノーラル信号を、ヘッドフォンではなく左右の2チャンネルのスピーカを用いて再生する手法は、トランスオーラル再生方式と呼ばれている。ただし、バイノーラル信号に基づく音をそのままスピーカから出力しただけでは、例えば、右耳用の音がリスナーの左耳にも聴こえてしまうようなクロストークが発生してしまう。さらに、例えば、右耳用の音がリスナーの右耳に到達するまでの間に、スピーカから右耳までの音響伝達特性が重畳され、波形が変形してしまう。
 そのため、トランスオーラル再生方式では、クロストークや余計な音響伝達特性をキャンセルするための事前処理が、バイノーラル信号に対して行われる。以下、この事前処理を、クロストーク補正処理と称する。
 ところで、バイノーラル信号は、耳元のマイクで録音しなくても生成することができる。具体的には、バイノーラル信号は、音響信号に対し、その音源の位置から両耳元までのHRTFを重畳したものである。従って、HRTFが分かっていれば、音響信号に対してHRTFを重畳する信号処理を施すことによりバイノーラル信号を生成することができる。以下、この処理をバイノーラル化処理と称する。
 HRTFをベースにしたフロントサラウンド方式では、以上のバイノーラル化処理およびクロストーク補正処理が行われる。ここで、フロントサラウンド方式とは、フロントスピーカだけでサラウンド音場を擬似的に作り出す仮想サラウンド方式である。そして、このバイノーラル化処理およびクロストーク補正処理を組み合わせた処理が、トランスオーラル処理である。
 しかしながら、特許文献1に記載の技術では、一方のスピーカの音量が他方のスピーカの音量と比較して有意に小さくなる場合、音像の定位感が低下する。ここで、図2を参照して、この理由について説明する。
 図2は、音像定位フィルタ11L,11Rを用いて、所定のリスニング位置にいるリスナーPに対して、スピーカ12L,12Rから出力される音の像を、仮想スピーカ13の位置に定位させる例を示している。なお、以下、仮想スピーカ13の位置が、リスニング位置(リスナーP)の前方左斜め上に設定されている場合について説明する。
 なお、以下、仮想スピーカ13とリスナーPの左耳ELとの間の音源側HRTFを頭部音響伝達関数HLと称し、仮想スピーカ13とリスナーPの右耳ERとの間の音源逆側HRTFを頭部音響伝達関数HRと称する。また、以下、説明を簡単にするために、スピーカ12LとリスナーPの左耳ELとの間のHRTFと、スピーカ12RとリスナーPの右耳ERとの間のHRTFが同じであるものとし、当該HRTFを頭部音響伝達関数G1と称する。同様に、スピーカ12LとリスナーPの右耳ERとの間のHRTFと、スピーカ12RとリスナーPの左耳ELとの間のHRTFが同じであるものとし、当該HRTFを頭部音響伝達関数G2と称する。
 図2に示されるように、スピーカ12Lからの音がリスナーPの左耳ELに到達するまでに頭部音響伝達関数G1が重畳され、スピーカ12Rからの音がリスナーPの左耳ELに到達するまでに頭部音響伝達関数G2が重畳される。ここで、音像定位フィルタ11L,11Rが理想的に作用すれば、両方のスピーカからの音を左耳ELにおいて合成した音の波形は、頭部音響伝達関数G1およびG2の影響がキャンセルされ、音響信号Sinに頭部音響伝達関数HLを重畳した波形となる。
 同様に、スピーカ12Rからの音がリスナーPの右耳ERに到達するまでに頭部音響伝達関数G1が重畳され、スピーカ12Lからの音がリスナーPの右耳ERに到達するまでに頭部音響伝達関数G2が重畳される。ここで、音像定位フィルタ11L,11Rが理想的に作用すれば、両方のスピーカからの音を右耳ERにおいて合成した音の波形は、頭部音響伝達関数G1およびG2の影響がキャンセルされ、音響信号Sinに頭部音響伝達関数HRを重畳した波形となる。
 ここで、特許文献1に記載の技術を適用し、音源側の音像定位フィルタ11Lに入力される音響信号Sinに、音源逆側の頭部音響伝達関数HRの第1ノッチおよび第2ノッチと同帯域のノッチを形成すると、リスナーPの左耳ELにおいて、頭部音響伝達関数HLの第1ノッチおよび第2ノッチ、並びに、頭部音響伝達関数HRの第1ノッチおよび第2ノッチとほぼ同帯域のノッチが現れる。また、リスナーPの右耳ERにおいて、頭部音響伝達関数HRの第1ノッチおよび第2ノッチが現れる。これにより、リスナーPの影側の右耳ERにおいて、頭部音響伝達関数HRの第1ノッチおよび第2ノッチが安定して再現され、仮想スピーカ13の上下前後の位置が安定する。
 しかしながら、これは理想的にクロストーク補正処理がなされた場合であり、実際には、音像定位フィルタ11L,11Rによりクロストークや余分な音響伝達特性を完全にキャンセルすることは困難である。これは通常、フィルタ11L、11Rを構成する場合、実用的規模にする必要性から生じるフィルタ特性誤差によるものや、通常的な試聴位置が理想的位置でないことによる空間的音響信号合成において生じる誤差によるものなどが原因である。特にこの場合、片耳にのみ再現すべき左耳ELでの頭部音響伝達関数HLの第1ノッチ、第2ノッチは再現が困難なものとなる。しかしながら、右耳HRの第1ノッチ、第2ノッチは信号全体に掛けられたものなので再現性は良いものとなる。
 では、そのような状況において、頭部音響伝達関数G1やG2に現れる第1ノッチ、第2ノッチの影響について以下考えてみる。
 頭部音響伝達関数G1の第1ノッチおよび第2ノッチの帯域と、頭部音響伝達関数G2の第1ノッチおよび第2ノッチの帯域とは、一般的には一致しない。従って、スピーカ12Lの音量とスピーカ12Rの音量が互いに有意な大きさである場合、リスナーPの左耳ELにおいて、頭部音響伝達関数G1の第1ノッチおよび第2ノッチは、スピーカ12Rからの音により打ち消され、頭部音響伝達関数G2の第1ノッチおよび第2ノッチは、スピーカ12Lからの音により打ち消される。同様に、リスナーPの右耳ERにおいて、頭部音響伝達関数G1の第1ノッチおよび第2ノッチは、スピーカ12Lからの音により打ち消され、頭部音響伝達関数G2の第1ノッチおよび第2ノッチは、スピーカ12Rからの音により打ち消される。
 従って、リスナーPの両耳において、頭部音響伝達関数G1およびG2のノッチが現れなくなり、仮想スピーカ13の定位感に影響を及ぼすことがないため、仮想スピーカ13の上下前後の位置が安定する。
 一方、例えば、スピーカ12Rの音量がスピーカ12Lの音量に対して有意に小さくなる場合、スピーカ12Rからの音がリスナーPの両耳にほとんど届かなくなる。これにより、リスナーPの左耳ELにおいて、頭部音響伝達関数G1の第1ノッチおよび第2ノッチが消されずにそのまま残る。また、リスナーPの右耳ERにおいて、頭部音響伝達関数G2の第1ノッチおよび第2ノッチが消されずにそのまま残る。
 従って、現実のクロストーク補正処理おいては、リスナーPの左耳ELにおいて、頭部音響伝達関数HRの第1ノッチおよび第2ノッチとほぼ同帯域のノッチに加えて、頭部音響伝達関数G1の第1ノッチおよび第2ノッチが現れる。すなわち、2組のノッチが同時に発生した状態となる。また、リスナーPの右耳ERにおいて、頭部音響伝達関数HRの第1ノッチおよび第2ノッチに加えて、頭部音響伝達関数G2の第1ノッチおよび第2ノッチが現れる。すなわち、2組のノッチが同時に発生した状態となる。
 このように、リスナーPの両耳において、頭部音響伝達関数HLおよびHR以外のノッチが現れることにより、音像定位フィルタ11Lに入力する音響信号Sinに頭部音響伝達関数HRの第1ノッチおよび第2ノッチと同帯域のノッチを形成した効果が薄れる。そして、リスナーPは、仮想スピーカ13の位置の識別が困難になり、仮想スピーカ13の上下前後の位置が不安定になる。
 ここで、スピーカ12Rの音量がスピーカ12Lの音量に対して有意に小さくなる場合の具体例について説明する。
 例えば、スピーカ12Lと仮想スピーカ13が、リスナーPの両耳を通る軸上の任意の点を中心とし、当該軸に対して垂直な同じ円の円周上またはその近傍に配置されている場合、以下に述べるように、音像定位フィルタ11Rのゲインが、音像定位フィルタ11Lのゲインと比較して有意に小さくなる。
 なお、以下、リスナーPの両耳を通る軸を両耳間軸と称する。また、以下、両耳間軸上の任意の点を中心とし、両耳間軸に対して垂直な円を、両耳間軸周りの円と称する。なお、リスナーPは、空間音響の分野でコーン状の混同と呼ばれる現象により、両耳間軸周りの同じ円の円周上にある音源の位置を識別することができない(例えば、非特許文献1の16ページ参照)。
 この場合、スピーカ12Lからの音のリスナーPの両耳間のレベル差および時間差は、仮想スピーカ13からの音のリスナーPの両耳間のレベル差および時間差とほぼ等しくなる。従って、次の式(1)および式(1’)が成り立つ。
 G2/G1≒HR/HL ・・・(1)
 HR≒(G2*HL)/G1 ・・・(1’)
 なお、式(1’)は式(1)を変形したものである。
 一方、一般的な音像定位フィルタ11L,11Rの係数CL,CRは、次の式(2-1)および式(2-2)により表される。
 CL=(G1*HL-G2*HR)/(G1*G1-G2*G2) ・・・(2-1)
 CR=(G1*HR-G2*HL)/(G1*G1-G2*G2) ・・・(2-2)
 従って、式(1’)並びに式(2-1)および式(2-2)により、次の式(3-1)および式(3-2)が成り立つ。
 CL≒HL/G1 ・・・(3-1)
 CR≒0 ・・・(3-2)
 すなわち、音像定位フィルタ11Lは、ほぼ頭部音響伝達関数HLと頭部音響伝達関数G1の差分となる。一方、音像定位フィルタ11Rの出力は、ほぼ0となる。従って、スピーカ12Rの音量がスピーカ12Lの音量に対して有意に小さくなる。
 以上をまとめると、スピーカ12Lと仮想スピーカ13が、両耳間軸周りの同じ円の円周上またはその近傍に配置されている場合、音像定位フィルタ11Rのゲイン(係数CR)が、音像定位フィルタ11Lのゲイン(係数CL)と比較して有意に小さくなる。その結果、スピーカ12Rの音量がスピーカ12Lの音量に対して有意に小さくなり、仮想スピーカ13の上下前後の位置が不安定になる。
 なお、これは、スピーカ12Rと仮想スピーカ13が、両耳間軸周りの同じ円の円周上またはその近傍に配置されている場合も同様である。
 これに対して、本技術は、一方のスピーカの音量が他方のスピーカの音量と比較して有意に小さくなる場合でも、仮想スピーカの定位感を安定させることができるようにするものである。
<2.第1の実施の形態>
 次に、図3乃至図5を参照して、本技術を適用した音響信号処理システムの第1の実施の形態について説明する。
{音響信号処理システム101Lの構成例}
 図3は、本技術の第1の実施の形態である音響信号処理システム101Lの機能の構成例を示す図である。
 音響信号処理システム101Lは、音響信号処理部111L、および、スピーカ112L,112Rを含むように構成される。スピーカ112L,112Rは、例えば、音響信号処理システム101Lにおいて理想的な所定のリスニング位置の前方に左右対称に配置される。
 音響信号処理システム101Lは、スピーカ112L,112Rを用いて、仮想の音源である仮想スピーカ113を実現する。すなわち、音響信号処理システム101Lは、所定のリスニング位置にいるリスナーPに対して、スピーカ112L,112Rから出力される音の像を、正中面から左に外れた仮想スピーカ113の位置に定位させることが可能である。
 なお、以下、仮想スピーカ113の位置が、リスニング位置(リスナーP)の前方左斜め上に設定されている場合について説明する。この場合、リスナーPの右耳ERが影側となる。また、以下、スピーカ112Lと仮想スピーカ113が、両耳間軸周りの同じ円の円周上またはその近傍に配置されている場合について説明する。
 また、以下、図2の例と同様に、仮想スピーカ113とリスナーPの左耳ELとの間の音源側HRTFを頭部音響伝達関数HLと称し、仮想スピーカ113とリスナーPの右耳ERとの間の音源逆側HRTFを頭部音響伝達関数HRと称する。さらに、以下、図2の例と同様に、スピーカ112LとリスナーPの左耳ELとの間のHRTFと、スピーカ112RとリスナーPの右耳ERとの間のHRTFが同じであるものとし、当該HRTFを頭部音響伝達関数G1と称する。また、以下、図2の例と同様に、スピーカ112LとリスナーPの右耳ERとの間のHRTFと、スピーカ112RとリスナーPの左耳ELとの間のHRTFが同じであるものとし、当該HRTFを頭部音響伝達関数G2と称する。
 音響信号処理部111Lは、トランスオーラル処理部121Lおよび補助信号合成部122Lを含むように構成される。トランスオーラル処理部121Lは、バイノーラル化処理部131Lおよびクロストーク補正処理部132を含むように構成される。バイノーラル化処理部131Lは、ノッチ形成イコライザ141L、および、バイノーラル信号生成部142L,142Rを含むように構成される。クロストーク補正処理部132は、信号処理部151L,151R、信号処理部152L,152R、および、加算部153L,153Rを含むように構成される。補助信号合成部122Lは、補助信号生成部161Lおよび加算部162Rを含むように構成される。
 ノッチ形成イコライザ141Lは、外部から入力される音響信号Sinの成分のうち、音源逆側HRTF(頭部音響伝達関数HR)において第1ノッチおよび第2ノッチが現れる帯域の成分を減衰させる処理(以下、ノッチ形成処理と称する)を行う。ノッチ形成イコライザ141Lは、ノッチ形成処理の結果得られた音響信号Sin’をバイノーラル信号生成部142Lに供給する。
 バイノーラル信号生成部142Lは、音響信号Sin’に対して頭部音響伝達関数HLを重畳することにより、バイノーラル信号BLを生成する。バイノーラル信号生成部142Lは、生成したバイノーラル信号BLを信号処理部151Lおよび信号処理部152Lに供給する。
 バイノーラル信号生成部142Rは、外部から入力される音響信号Sinに対して頭部音響伝達関数HRを重畳することにより、バイノーラル信号BRを生成する。バイノーラル信号生成部142Rは、生成したバイノーラル信号BRを信号処理部151Rおよび信号処理部152Rに供給する。
 信号処理部151Lは、頭部音響伝達関数G1,G2を変数とする所定の関数f1(G1,G2)をバイノーラル信号BLに重畳することにより、音響信号SL1を生成する。信号処理部151Lは、生成した音響信号SL1を加算部153Lに供給する。
 同様に、信号処理部151Rは、関数f1(G1,G2)をバイノーラル信号BRに重畳することにより、音響信号SR1を生成する。信号処理部151Rは、生成した音響信号SR1を加算部153Rに供給する。
 なお、関数f1(G1,G2)は、例えば、次式(4)により表される。
 f1(G1,G2)=1/(G1+G2)+1/(G1-G2) ・・・(4)
 信号処理部152Lは、頭部音響伝達関数G1,G2を変数とする所定の関数f2(G1,G2)をバイノーラル信号BLに重畳することにより、音響信号SL2を生成する。信号処理部152Lは、生成した音響信号SL2を加算部153Rに供給する。
 同様に、信号処理部152Rは、関数f2(G1,G2)をバイノーラル信号BRに重畳することにより、音響信号SR2を生成する。信号処理部152Rは、生成した音響信号SR2を加算部153Lに供給する。
 なお、関数f2(G1,G2)は、例えば、次式(5)により表される。
 f2(G1,G2)=1/(G1+G2)-1/(G1-G2) ・・・(5)
 加算部153Lは、音響信号SL1と音響信号SR2を加算することにより、音響信号SLout1を生成する。加算部153Lは、音響信号SLout1を補助信号生成部161Lおよびスピーカ112Lに供給する。
 加算部153Rは、音響信号SR1と音響信号SL2を加算することにより、音響信号SRout1を生成する。加算部153Rは、音響信号SRout1を加算部162Rに供給する。
 補助信号生成部161Lは、例えば、所定の帯域の信号を抽出または減衰するフィルタ(例えば、ハイパスフィルタ、バンドパスフィルタ等)、並びに、信号レベルを調整するアッテネータにより構成される。補助信号生成部161Lは、音響信号SLout1の所定の帯域の信号を抽出または減衰することにより補助信号SLsubを生成し、必要に応じて補助信号SLsubの信号レベルを調整する。補助信号生成部161Lは、生成した補助信号SLsubを加算部162Rに供給する。
 加算部162Rは、音響信号SRout1と補助信号SLsubを加算することにより、音響信号SRout2を生成する。加算部162Rは、音響信号SRout2をスピーカ112Rに供給する。
 スピーカ112Lは、音響信号SLout1に基づく音を出力し、スピーカ112Rは、音響信号SRout2(すなわち、音響信号SRout1と補助信号SLsubを合成した信号)に基づく音を出力する。
{音響信号処理システム101Lによる音響信号処理}
 次に、図4のフローチャートを参照して、図3の音響信号処理システム101Lにより実行される音響信号処理について説明する。
 ステップS1において、ノッチ形成イコライザ141Lは、音源側の音響信号Sinに音源逆側HRTFのノッチと同帯域のノッチを形成する。すなわち、ノッチ形成イコライザ141Lは、音響信号Sinの成分のうち、仮想スピーカ113の音源逆側HRTFである頭部音響伝達関数HRの第1ノッチおよび第2ノッチと同じ帯域の成分を減衰させる。これにより、音響信号Sinの成分のうち、頭部音響伝達関数HRのノッチが現れる帯域のうち所定の周波数(4kHz近傍の正のピークが現れる周波数)以上において最も低い帯域および2番目に低い帯域の成分が減衰される。そして、ノッチ形成イコライザ141Lは、その結果得られた音響信号Sin’をバイノーラル信号生成部142Lに供給する。
 ステップS2において、バイノーラル信号生成部142L,142Rは、バイノーラル化処理を行う。具体的には、バイノーラル信号生成部142Lは、音響信号Sin’に頭部音響伝達関数HLを重畳することにより、バイノーラル信号BLを生成する。バイノーラル信号生成部142Lは、生成したバイノーラル信号BLを信号処理部151Lおよび信号処理部152Lに供給する。
 このバイノーラル信号BLは、音源逆側HRTF(頭部音響伝達関数HR)の第1ノッチおよび第2ノッチと同帯域のノッチを音源側HRTF(頭部音響伝達関数HL)に形成したHRTFを音響信号Sinに重畳した信号となる。換言すれば、このバイノーラル信号BLは、音響信号Sinに音源側HRTFを重畳した信号の成分のうち、音源逆側HRTFにおいて第1ノッチおよび第2ノッチが現れる帯域の成分を減衰させた信号となる。
 また、バイノーラル信号生成部142Rは、音響信号Sinに頭部音響伝達関数HRを重畳することにより、バイノーラル信号BRを生成する。バイノーラル信号生成部142Rは、生成したバイノーラル信号BRを信号処理部151Rおよび信号処理部152Rに供給する。
 ステップS3において、クロストーク補正処理部132は、クロストーク補正処理を行う。具体的には、信号処理部151Lは、上述した関数f1(G1,G2)をバイノーラル信号BLに重畳することにより、音響信号SL1を生成する。信号処理部151Lは、生成した音響信号SL1を加算部153Lに供給する。
 同様に、信号処理部151Rは、関数f1(G1,G2)をバイノーラル信号BRに重畳することにより、音響信号SR1を生成する。信号処理部151Rは、生成した音響信号SR1を加算部153Rに供給する。
 また、信号処理部152Lは、上述した関数f2(G1,G2)をバイノーラル信号BLに重畳することにより、音響信号SL2を生成する。信号処理部152Lは、生成した音響信号SL2を加算部153Rに供給する。
 同様に、信号処理部152Rは、関数f2(G1,G2)をバイノーラル信号BRに重畳することにより、音響信号SR2を生成する。信号処理部152Rは、生成した音響信号SL2を加算部153Lに供給する。
 加算部153Lは、音響信号SL1と音響信号SR2を加算することにより音響信号SLout1を生成する。加算部153Lは、生成した音響信号SLout1を補助信号生成部161Lおよびスピーカ112Lに供給する。
 同様に、加算部153Rは、音響信号SR1と音響信号SL2を加算することにより音響信号SRout1を生成する。加算部153Rは、生成した音響信号SRout1を加算部162Rに供給する。
 ここで、上述したように、スピーカ112Lと仮想スピーカ113が、両耳間軸周りの同じ円の円周上またはその近傍に配置されているため、音響信号SRout1の大きさは、ほぼ0となる。
 ステップS4において、補助信号合成部122Lは、補助信号合成処理を行う。具体的には、補助信号生成部161Lは、音響信号SLout1の所定の帯域の信号を抽出または減衰することにより、補助信号SLsubを生成する。
 例えば、補助信号生成部161Lは、音響信号SLout1の4kHz未満の帯域を減衰させることにより、音響信号SLout1の4kHz以上の帯域の成分からなる補助信号SLsubを生成する。
 或いは、例えば、補助信号生成部161Lは、4kHz以上の帯域の中から所定の帯域の成分を音響信号SLout1から抽出することにより補助信号SLsubを生成する。ここで抽出される帯域には、頭部音響伝達関数G1の第1ノッチおよび第2ノッチ、並びに、頭部音響伝達関数G2の第1ノッチおよび第2ノッチが現れる帯域が少なくとも含まれる。
 なお、スピーカ112Lと左耳ELとの間のHRTFと、スピーカ112Rと右耳ERとの間のHRTFが異なり、スピーカ112Lと右耳ERとの間のHRTFと、スピーカ112Rと左耳ELとの間のHRTFが異なる場合、各HRTFの第1ノッチおよび第2ノッチが現れる帯域が、補助信号SLsubの帯域に少なくとも含まれるようにすればよい。
 また、補助信号生成部161Lは、必要に応じて、補助信号SLsubの信号レベルを調整する。そして、補助信号生成部161Lは、生成した補助信号SLsubを加算部162Rに供給する。
 加算部162Rは、音響信号SRout1に補助信号SLsubを加算することにより、音響信号SRout2を生成する。加算部162Rは、生成した音響信号SRout2をスピーカ112Rに供給する。
 これにより、音響信号SRout1のレベルがほぼ0であっても、少なくとも頭部音響伝達関数G1の第1ノッチおよび第2ノッチ、並びに、頭部音響伝達関数G2の第1ノッチおよび第2ノッチが現れる帯域において、音響信号SRout2のレベルは音響信号SLout1に対して有意な大きさになる。一方、頭部音響伝達関数HRの第1ノッチおよび第2ノッチが現れる帯域において、音響信号SRout2のレベルは非常に小さくなる。
 ステップS4において、スピーカ112Lおよびスピーカ112Rから、それぞれ音響信号SLout1または音響信号SRout2に基づく音が出力される。
 これにより、音源逆側HRTF(頭部音響伝達関数HR)の第1ノッチおよび第2ノッチの帯域だけに注目すると、スピーカ112L,112Rの再生音の信号レベルが小さくなり、リスナーPの両耳に到達する音において、当該帯域のレベルは安定して小さくなる。従って、仮にクロストークが発生したとしても、リスナーPの影側の耳元において、音源逆側HRTFの第1ノッチおよび第2ノッチが安定して再現される。
 また、頭部音響伝達関数G1の第1ノッチおよび第2ノッチ、並びに、頭部音響伝達関数G2の第1ノッチおよび第2ノッチが現れる帯域において、スピーカ112Lから出力される音およびスピーカ112Rから出力される音のレベルが互いに有意な大きさになる。従って、リスナーPの両耳において、頭部音響伝達関数G1の第1ノッチおよび第2ノッチ、並びに、頭部音響伝達関数G2の第1ノッチおよび第2ノッチが互いに打ち消され、現れなくなる。
 従って、スピーカ112Lと仮想スピーカ113が、両耳間軸周りの同じ円の円周上またはその近傍に配置され、音響信号SRout1のレベルが音響信号SLout1と比較して有意に小さくなっても、仮想スピーカ113の上下前後の位置を安定させることができる。
 なお、補助信号SLsubの影響により、補助信号SLsubの帯域において音像の大きさが若干ふくらむことも想定される。しかし、補助信号SLsubが適切なレベルであれば、基本的に音のボディは低域~中域で形成されるため、その影響は軽微である。ただし、補助信号SLsubのレベルは、仮想スピーカ113の定位感を安定させる効果が得られる範囲で、できる限り小さく調整するようにすることが望ましい。
{第1の実施の形態の変形例}
 図5は、本技術の第1の実施の形態の変形例である音響信号処理システム101Rの機能の構成例を示す図である。なお、図中、図3と対応する部分には同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 音響信号処理システム101Rは、音響信号処理システム101Lとは逆に、所定のリスニング位置にいるリスナーPの正中面から右に外れた位置に仮想スピーカ113を定位させるシステムである。この場合、リスナーPの左耳ELが影側となる。
 音響信号処理システム101Rは、音響信号処理システム101Lと比較して左右対称の構成を有している。具体的には、音響信号処理システム101Rは、音響信号処理システム101Lと比較して、音響信号処理部111Lの代わりに音響信号処理部111Rが設けられている点が異なる。音響信号処理部111Rは、音響信号処理部111Lと比較して、トランスオーラル処理部121Lおよび補助信号合成部122Lの代わりに、トランスオーラル処理部121Rおよび補助信号合成部122Rが設けられている点が異なる。トランスオーラル処理部121Rは、トランスオーラル処理部121Lと比較して、バイノーラル化処理部131Lの代わりに、バイノーラル化処理部131Rが設けられている点が異なる。
 バイノーラル化処理部131Rは、バイノーラル化処理部131Lと比較して、ノッチ形成イコライザ141Rがバイノーラル信号生成部142Rの前段に設けられ、ノッチ形成イコライザ141Lが削除されている点が異なる。
 ノッチ形成イコライザ141Rは、ノッチ形成イコライザ141Lと同様の機能を有しており、音響信号Sinの成分のうち、音源逆側HRTF(頭部音響伝達関数HL)において第1ノッチおよび第2ノッチが現れる帯域の成分を減衰させるノッチ形成処理を行う。ノッチ形成イコライザ141Rは、その結果得られた音響信号Sin’をバイノーラル信号生成部142Rに供給する。
 バイノーラル信号生成部142Lは、外部から入力される音響信号Sinに対して頭部音響伝達関数HLを重畳することにより、バイノーラル信号BLを生成する。バイノーラル信号生成部142Lは、生成したバイノーラル信号BLを信号処理部151Lおよび信号処理部152Lに供給する。
 バイノーラル信号生成部142Rは、音響信号Sin’に対して頭部音響伝達関数HRを重畳することにより、バイノーラル信号BRを生成する。バイノーラル信号生成部142Rは、生成したバイノーラル信号BRを信号処理部151Rおよび信号処理部152Rに供給する。
 補助信号合成部122Rは、補助信号合成部122Lと比較して、補助信号生成部161Lおよび加算部162Rの代わりに、補助信号生成部161Rおよび加算部162Lが設けられている点が異なる。
 補助信号生成部161Rは、補助信号生成部161Lと同様の機能を有しており、音響信号SRout1の所定の帯域の信号を抽出または減衰することにより補助信号SRsubを生成し、必要に応じて補助信号SRsubの信号レベルを調整する。補助信号生成部161Rは、生成した補助信号SRsubを加算部162Lに供給する。
 加算部162Lは、音響信号SLout1と補助信号SRsubを加算することにより、音響信号SLout2を生成する。加算部162Lは、音響信号SLout2をスピーカ112Lに供給する。
 そして、スピーカ112Lは、音響信号SLout2に基づく音を出力し、スピーカ112Rは、音響信号SRout1に基づく音を出力する。
 これにより、音響信号処理システム101Rは、音響信号処理システム101Lと同様の方法により、所定のリスニング位置にいるリスナーPの正中面から右に外れた位置に仮想スピーカ113を安定して定位させることができる。
<3.第2の実施の形態>
 次に、図6乃至図8を参照して、本技術を適用した音響信号処理システムの第2の実施の形態について説明する。
{音響信号処理システム201Lの構成例}
 図6は、本技術の第2の実施の形態である音響信号処理システム201Lの機能の構成例を示す図である。なお、図中、図3と対応する部分には、同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 音響信号処理システム201Lは、音響信号処理システム101Lと同様に、所定のリスニング位置にいるリスナーPの正中面から左に外れた位置に仮想スピーカ113を定位させることが可能なシステムである。
 音響信号処理システム201Lは、図3の音響信号処理システム101Lと比較して、音響信号処理部111Lの代わりに音響信号処理部211Lが設けられている点が異なる。音響信号処理部211Lは、音響信号処理部111Lと比較して、トランスオーラル処理部121Lの代わりにトランスオーラル処理部221が設けられている点が異なる。トランスオーラル処理部221は、トランスオーラル処理部121Lと比較して、バイノーラル化処理部131Lの代わりにバイノーラル化処理部231が設けられている点が異なる。バイノーラル化処理部231は、バイノーラル化処理部131Lと比較して、バイノーラル信号生成部142Rの前段にノッチ形成イコライザ141Rが追加されている点が異なる。
 ノッチ形成イコライザ141Rは、ノッチ形成イコライザ141Lと同様のイコライザである。従って、ノッチ形成イコライザ141Rは、音響信号Sinの成分のうち、音源逆側HRTF(頭部音響伝達関数HR)において第1ノッチおよび第2ノッチが現れる帯域の成分を減衰させるノッチ形成処理を行う。ノッチ形成イコライザ141Lは、ノッチ形成処理の結果得られた音響信号Sin’をバイノーラル信号生成部142Rに供給する。
{音響信号処理システム201Lによる音響信号処理}
 次に、図7のフローチャートを参照して、図6の音響信号処理システム201Lにより実行される音響信号処理について説明する。
 ステップS21において、ノッチ形成イコライザ141L,141Rは、音源側および音源逆側の音響信号Sinに音源逆側HRTFのノッチと同帯域のノッチを形成する。すなわち、ノッチ形成イコライザ141Lは、音響信号Sinの成分のうち、仮想スピーカ113の音源逆側HRTFである頭部音響伝達関数HRの第1ノッチおよび第2ノッチと同じ帯域の成分を減衰させる。そして、ノッチ形成イコライザ141Lは、その結果得られた音響信号Sin’をバイノーラル信号生成部142Lに供給する。
 同様に、ノッチ形成イコライザ141Rは、音響信号Sinの成分のうち、頭部音響伝達関数HRの第1ノッチおよび第2ノッチと同じ帯域の成分を減衰させる。そして、ノッチ形成イコライザ141Rは、その結果得られた音響信号Sin’をバイノーラル信号生成部142Rに供給する。
 ステップS22において、バイノーラル信号生成部142L,142Rは、バイノーラル化処理を行う。具体的には、バイノーラル信号生成部142Lは、音響信号Sin’に頭部音響伝達関数HLを重畳することにより、バイノーラル信号BLを生成する。バイノーラル信号生成部142Lは、生成したバイノーラル信号BLを信号処理部151Lおよび信号処理部152Lに供給する。
 同様に、バイノーラル信号生成部142Rは、音響信号Sin’に頭部音響伝達関数HRを重畳することにより、バイノーラル信号BRを生成する。バイノーラル信号生成部142Rは、生成したバイノーラル信号BRを信号処理部151Rおよび信号処理部152Rに供給する。
 このバイノーラル信号BRは、実質的に音源逆側HRTF(頭部音響伝達関数HR)の第1ノッチおよび第2ノッチをさらに深くしたHRTFを音響信号Sinに重畳した信号となる。従って、このバイノーラル信号BRは、音響信号処理システム101Lにおけるバイノーラル信号BRと比較して、音源逆側HRTFにおいて第1ノッチおよび第2ノッチが現れる帯域の成分がさらに小さくなる。
 そして、ステップS23乃至S25において、図4のステップS3乃至S5と同様の処理が行われ、音響信号処理は終了する。
 これにより、音響信号処理システム201Lでも、音響信号処理システム101Lと同様の理由により、仮想スピーカ113の上下前後の定位感を安定させることができる。
 なお、上述したように、音響信号処理システム201Lでは、音響信号処理システム101Lと比較して、バイノーラル信号BRにおいて、音源逆側HRTF(頭部音響伝達関数HR)において第1ノッチおよび第2ノッチが現れる帯域の成分が小さくなる。従って、最終的にスピーカ112Rに供給される音響信号SRout2の同帯域の成分も小さくなり、スピーカ112Rから出力される音の同帯域のレベルも小さくなる。
 しかし、これは、リスナーPの影側の耳元において、音源逆側HRTFの第1ノッチおよび第2ノッチの帯域のレベルを安定して再現するという点で、悪影響を及ぼすものではない。従って、音響信号処理システム201Lにおいても、音響信号処理システム101Lと同様に、上下前後の定位感を安定させる効果を得ることができる。
 また、リスナーPの両耳に到達する音において、音源逆側HRTFの第1ノッチおよび第2ノッチの帯域のレベルは元々小さいため、それをさらに小さくしても音質に悪影響を及ぼすものではない。
{第2の実施の形態の変形例}
 図8は、本技術の第2の実施の形態の変形例である音響信号処理システム201Rの機能の構成例を示す図である。なお、図中、図5および図6と対応する部分には同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 音響信号処理システム201Rは、図6の音響信号処理システム201Lと比較して、補助信号合成部122Lの代わりに、図5を参照して上述した補助信号合成部122Rが設けられている点が異なる。
 これにより、音響信号処理システム201Rは、音響信号処理システム201Lと同様の方法により、リスナーPの正中面から右に外れた位置に仮想スピーカ113を安定して定位させることができる。
<4.第3の実施の形態>
 次に、図9乃至図11を参照して、本技術を適用した音響信号処理システムの第3の実施の形態について説明する。
{音響信号処理システム301Lの構成例}
 図9は、本技術の第3の実施の形態である音響信号処理システム301Lの機能の構成例を示す図である。なお、図中、図6と対応する部分には、同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 音響信号処理システム301Lは、音響信号処理システム101Lおよび201Lと同様に、所定のリスニング位置にいるリスナーPの正中面から左に外れた位置に仮想スピーカ113を定位させることが可能なシステムである。
 音響信号処理システム301Lは、図6の音響信号処理システム201Lと比較して、音響信号処理部211Lの代わりに音響信号処理部311Lが設けられている点が異なる。音響信号処理部311Lは、音響信号処理部211Lと比較して、トランスオーラル処理部221の代わりにトランスオーラル処理部321が設けられている点が異なる。トランスオーラル処理部321は、ノッチ形成イコライザ141およびトランスオーラル一体化処理部331を含むように構成される。トランスオーラル一体化処理部331は、信号処理部351L,351Rを含むように構成される。
 ノッチ形成イコライザ141は、図9のノッチ形成イコライザ141L,141Rと同様のイコライザである。従って、ノッチ形成イコライザ141からは、ノッチ形成イコライザ141L,141Rと同様の音響信号Sin’が出力され、信号処理部351L,351Rに供給される。
 トランスオーラル一体化処理部331は、音響信号Sin’に対して、バイノーラル化処理およびクロストーク補正処理の一体化処理を行う。例えば、信号処理部351Lは、音響信号Sin’に対して次式(6)に示される処理を施し、音響信号SLout1を生成する。
 SLout1={HL*f1(G1,G2)+HR*f2(G1,G2)}×Sin' ・・・(6)
 この音響信号SLout1は、音響信号処理システム201Lにおける音響信号SLout1と同じ信号となる。
 同様に、例えば、信号処理部351Rは、音響信号Sin’に対して次式(7)に示される処理を施し、音響信号SRout1を生成する。
 SRout1={HR*f1(G1,G2)+HL*f2(G1,G2)}×Sin' ・・・(7)
 この音響信号SRout1は、音響信号処理システム201Lにおける音響信号SRout1と同じ信号となる。
 なお、信号処理部351L,351Rの外側にノッチ形成イコライザ141を実装する場合、音源側の音響信号Sinだけにノッチ形成処理を行う経路は存在しない。従って、音響信号処理部311Lでは、信号処理部351Lおよび信号処理部351Rの前段にノッチ形成イコライザ141を設け、音源側および音源逆側の両方の音響信号Sinに対してノッチ形成処理を行い、信号処理部351L,351Rに供給する。すなわち、音響信号処理システム201Lと同様に、音源逆側の音響信号Sinに対して、実質的に音源逆側HRTFの第1ノッチおよび第2ノッチをさらに深くしたHRTFを重畳することになる。
 しかしながら、上述したように、音源逆側HRTFの第1ノッチおよび第2ノッチをさらに深くしても、上下前後の定位感および音質に悪影響は与えない。
{音響信号処理システム301Lによる音響信号処理}
 次に、図10のフローチャートを参照して、図9の音響信号処理システム301Lにより実行される音響信号処理について説明する。
 ステップS41において、ノッチ形成イコライザ141は、音源側および音源逆側の音響信号Sinに音源逆側HRTFのノッチと同帯域のノッチを形成する。すなわち、ノッチ形成イコライザ141は、音響信号Sinの成分のうち、音源逆側HRTF(頭部音響伝達関数HR)の第1ノッチおよび第2ノッチと同じ帯域の成分を減衰させる。ノッチ形成イコライザ141は、その結果得られた音響信号Sin’を信号処理部351L,351Rに供給する。
 ステップS42において、トランスオーラル一体化処理部331は、トランスオーラル一体化処理を行う。具体的には、信号処理部351Lは、音響信号Sin’に対して、上述した式(6)で示されるバイノーラル化処理とクロストーク補正処理の一体化処理を行い、音響信号SLout1を生成する。そして、信号処理部351Lは、音響信号SLout1をスピーカ112Lおよび補助信号生成部161Lに供給する。同様に、信号処理部351Rは、音響信号Sin’に対して、上述した式(7)で示されるバイノーラル化処理とクロストーク補正処理の一体処理を行い、音響信号SRout1を生成する。そして、信号処理部351Rは、音響信号SRout1を加算部162Rに供給する。
 ステップS43およびS44において、図4のステップS4およびS5と同様の処理が行われ、音響信号処理は終了する。
 これにより、音響信号処理システム301Lでも、音響信号処理システム201Lと同様の理由により、仮想スピーカ113の上下前後の定位感を安定させることができる。また、音響信号処理システム201Lと比較して、一般的に信号処理の負荷を軽減することが期待できる。
{第3の実施の形態の変形例}
 図11は、本技術の第3の実施の形態の変形例である音響信号処理システム201Rの機能の構成例を示す図である。なお、図中、図5および図9と対応する部分には同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 音響信号処理システム301Rは、図9の音響信号処理システム301Lと比較して、補助信号合成部122Lの代わりに、図5を参照して上述した補助信号合成部122Rが設けられている点が異なる。
 これにより、音響信号処理システム301Rは、音響信号処理システム301Lと同様の方法により、リスナーPの正中面から右に外れた位置に仮想スピーカ113を安定して定位させることができる。
<5.第4の実施の形態>
 以上の説明では、仮想スピーカ(仮想音源)を1ヶ所のみ生成する例を示したが、2ヶ所以上生成することも可能である。
 例えば、リスナーの正中面を基準にして左右に分かれた位置に1カ所ずつ仮想スピーカを生成することが可能である。この場合、例えば、図3の音響信号処理部111Lと図5の音響信号処理部111R、図6の音響信号処理部211Lと図8の音響信号処理部211R、または、図9の音響信号処理部311Lと図11の音響信号処理部311Rのいずれかの組み合わせで、各音響信号処理部を仮想スピーカ毎に並列に設けるようにすればよい。
 なお、複数の音響信号処理部を並列に設ける場合、各音響信号処理部に対して、それぞれ対応する仮想スピーカに応じた音源側HRTFおよび音源逆側HRTFが適用される。また、各音響信号処理部から出力される音響信号のうち左スピーカ用の音響信号が加算されて左スピーカに供給され、右スピーカ用の音響信号が加算されて右スピーカに供給される。
 図12は、左右のフロントスピーカを使用して所定のリスニング位置の前方左斜め上および右斜め上の2ヶ所の仮想スピーカから仮想的に音を出力できるようにしたオーディオシステム401の機能の構成例を模式的に示すブロック図である。
 オーディオシステム401は、再生装置411、AV(Audio/Visual)アンプリファイア412、フロントスピーカ413L,413R、センタスピーカ414、および、リアスピーカ415L,415Rを含むように構成される。
 再生装置411は、前方左、前方右、前方中央、後方左、後方右、前方左上、前方右上の少なくとも6チャンネルの音響信号を再生可能な再生装置である。例えば、再生装置411は、記録媒体402に記録されている6チャンネルの音響信号を再生することにより得られる前方左用の音響信号FL、前方右用の音響信号FR、前方中央用の音響信号C、後方左用の音響信号RL、後方右用の音響信号RR、前方左斜め上用の音響信号FHL、および、前方右斜め上用の音響信号FHRを出力する。
 AVアンプリファイア412は、音響信号処理部421L,421R、加算部422、および、増幅部423を含むように構成される。また、加算部422は、加算部422Lおよび422Rを含むように構成される。
 音響信号処理部421Lは、図3の音響信号処理部111L、図6の音響信号処理部211L、または、図9の音響信号処理部311Lにより構成される。音響信号処理部421Lは、前方左斜め上用の仮想スピーカに対応し、当該仮想スピーカに応じた音源側HRTFおよび音源逆側HRTFが適用される。
 そして、音響信号処理部421Lは、音響信号FHLに対して、図4、図7または図10を参照して上述した音響信号処理を行い、その結果得られた音響信号FHLL,FHLRを生成する。なお、音響信号FHLLは、図3、図6および図9の音響信号SLout1に対応し、音響信号FHLRは、図3、図6および図9の音響信号SRout2に対応する。音響信号処理部421Lは、音響信号FHLLを加算部422Lに供給し、音響信号FHLRを加算部422Rに供給する。
 音響信号処理部421Rは、図5の音響信号処理部111R、図8の音響信号処理部211R、または、図11の音響信号処理部311Rにより構成される。音響信号処理部421Rは、前方右斜め上用の仮想スピーカに対応し、当該仮想スピーカに応じた音源側HRTFおよび音源逆側HRTFが適用される。
 そして、音響信号処理部421Rは、音響信号FHRに対して、図4、図7または図11を参照して上述した音響信号処理を行い、その結果得られた音響信号FHRL,FHRRを生成する。なお、音響信号FHRLは、図5、図8および図11の音響信号SLout2に対応し、音響信号FHRRは、図5、図8および図11の音響信号SRout1に対応する。音響信号処理部421Lは、音響信号FHRLを加算部422Lに供給し、音響信号FHRRを加算部422Rに供給する。
 加算部422Lは、音響信号FL、音響信号FHLL、および、音響信号FHRLを加算することにより音響信号FLMを生成し、増幅部423に供給する。
 加算部422Rは、音響信号FR、音響信号FHLR、および、音響信号FHRRを加算することにより音響信号FRMを生成し、増幅部423に供給する。
 増幅部423は、音響信号FLM乃至音響信号RRを増幅し、フロントスピーカ413L乃至リアスピーカ415Rにそれぞれ供給する。
 フロントスピーカ413Lとフロントスピーカ413Rは、例えば、所定のリスニング位置の前方に左右対称に配置される。そして、フロントスピーカ413Lは、音響信号FLMに基づく音を出力し、フロントスピーカ413Rは、音響信号FRMに基づく音を出力する。これにより、リスニング位置にいるリスナーは、フロントスピーカ413L,413Rだけでなく、前方左斜め上および前方右斜め上の2ヶ所に仮想的に配置された仮想スピーカからも音が出力されているように感じる。
 センタスピーカ414は、例えば、リスニング位置の前方の中央に配置される。そして、センタスピーカ414は、音響信号Cに基づく音を出力する。
 リアスピーカ415Lとリアスピーカ415Rは、例えば、リスニング位置の後方に左右対称に配置される。そして、リアスピーカ415Lは、音響信号RLに基づく音を出力し、リアスピーカ415Rは、音響信号RRに基づく音を出力する。
 なお、例えば、オーディオシステム401において、音響信号処理部421Lおよび421Rの代わりに、図13に示される音響信号処理部451を設けることも可能である。なお、図中、図3および図5と対応する部分には、同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 音響信号処理部451は、補助信号合成部461、および、トランスオーラル処理部462L,462Rを含むように構成される。補助信号合成部461は、補助信号生成部161L,161R、および、加算部162L,162Rを含むように構成される。
 補助信号生成部161Lは、音響信号FHLの所定の帯域の信号を抽出または減衰することにより補助信号FHLsubを生成し、必要に応じて補助信号FHLsubの信号レベルを調整する。補助信号生成部161Lは、生成した補助信号FHLsubを加算部162Rに供給する。
 補助信号生成部161Rは、音響信号FHRの所定の帯域の信号を抽出または減衰することにより補助信号FHRsubを生成し、必要に応じて補助信号FHRsubの信号レベルを調整する。補助信号生成部161Rは、生成した補助信号FHRsubを加算部162Rに供給する。
 加算部162Lは、音響信号FHLと補助信号FHRsubを加算することにより、音響信号FHL’を生成する。加算部162Lは、音響信号FHL’をトランスオーラル処理部462Lに供給する。
 加算部162Rは、音響信号FHRと補助信号FHLsubを加算することにより、音響信号FHR’を生成する。加算部162Rは、音響信号FHR’をトランスオーラル処理部462Rに供給する。
 トランスオーラル処理部462Lは、図3のトランスオーラル処理部121L、図6のトランスオーラル処理部221、または、図9のトランスオーラル処理部321のいずれかにより構成される。トランスオーラル処理部462Lは、音響信号FHL’に対してトランスオーラル処理を行い、音響信号FHLLおよび音響信号FHLRを生成する。トランスオーラル処理部462Lは、音響信号FHLLを加算部422Lに供給し、音響信号FHLRを加算部422Rに供給する。なお、音響信号FHLLは、図3、図6および図9の音響信号SLout1に対応し、音響信号FHLRは、図3、図6および図9の音響信号SRout1に対応する。
 トランスオーラル処理部462Rは、図5のトランスオーラル処理部121R、図8のトランスオーラル処理部221、または、図11のトランスオーラル処理部321のいずれかにより構成される。トランスオーラル処理部462Rは、音響信号FHR’に対してトランスオーラル処理を行い、音響信号FHRLおよび音響信号FHRRを生成する。トランスオーラル処理部462Rは、音響信号FHRLを加算部422Lに供給し、音響信号FHRRを加算部422Rに供給する。なお、音響信号FHRLは、図5、図8および図11の音響信号SLout1に対応し、音響信号FHLRは、図5、図8および図11の音響信号SRout1に対応する。
 このように、仮想スピーカを2つ以上生成する場合、トランスオーラル処理後に補助信号を加算する代わりに、外部から入力される音響信号に補助信号を加算してから、トランスオーラル処理を行うことも可能である。
 なお、リスナーの正中面を基準にして同じ側(左側または右側)に、仮想スピーカを2カ所以上生成することも可能である。例えば、リスナーの正中面を基準にして左側に仮想スピーカを2カ所以上生成する場合、音響信号処理部111L、音響信号処理部211L、または、音響信号処理部311Lを、仮想スピーカ毎に並列に設けるようにすればよい。この場合、各音響信号処理部から出力される音響信号SLout1が加算されて左スピーカに供給され、各音響信号処理部から出力される音響信号SRout2が加算されて右スピーカに供給される。また、この場合、補助信号合成部122Lを共有化することが可能である。
 同様に、例えば、リスナーの正中面を基準にして右側に仮想スピーカを2カ所以上生成する場合、音響信号処理部111R、音響信号処理部211R、または、音響信号処理部311Rを、仮想スピーカ毎に並列に設けるようにすればよい。この場合、各音響信号処理部から出力される音響信号SLout2が加算されて左スピーカに供給され、各音響信号処理部から出力される音響信号SRout1が加算されて右スピーカに供給される。また、この場合、補助信号合成部122Rを共有化することが可能である。
 また、音響信号処理部111L、音響信号処理部111R、音響信号処理部211L、または、音響信号処理部211Rを並列に設ける場合、クロストーク補正処理部132を共有化することが可能である。
<6.変形例>
 以下、上述した本技術の実施の形態の変形例について説明する。
{変形例1:音響信号処理部の構成の変形例}
 例えば、図3、図6および図9の補助信号合成部122Lの代わりに、図14の補助信号合成部501Lを用いるようにしてもよい。なお、図中、図3と対応する部分には、同じ符号を付してあり、処理が同じ部分については、その説明は繰り返しになるので適宜省略する。
 補助信号合成部501Lは、図3の補助信号合成部122Lと比較して、遅延部511L,511Rが追加されている点が異なる。
 遅延部511Lは、図3もしくは図6クロストーク補正処理部132、または、図9のトランスオーラル一体化処理部331から供給される音響信号SLout1を、補助信号SLsubを生成した後に所定の時間だけ遅延させてからスピーカ112Lに供給する。
 遅延部511Rは、図3もしくは図6クロストーク補正処理部132、または、図9のトランスオーラル一体化処理部331から供給される音響信号SRout1を、補助信号SLsubを加算する前に、遅延部511Lと同じ時間だけ遅延させてから加算部162Rに供給する。
 遅延部511L,511Rを設けない場合、音響信号SLout1に基づく音(以下、左主音声と称する)、音響信号SRout1に基づく音(以下、右主音声と称する)、および、補助信号SLsubに基づく音(以下、補助音声と称する)が、ほぼ同時にスピーカ112L,112Rから出力される。そして、リスナーPの左耳ELには、まず左主音声が到達し、その後右主音声および補助音声がほぼ同時に到達する。また、リスナーPの右耳ERには、まず右主音声および補助音声がほぼ同時に到達し、その後左主音声が到達する。
 これに対して、遅延部511L,511Rは、補助音声が左主音声より所定の時間(例えば、数ミリ秒)だけ先行してリスナーPの左耳ELに到達するように調整する。これにより、仮想スピーカ113の定位感が向上することが実験で確認されている。これは、いわゆる経時マスキングのうちの順向マスキングにより、リスナーPの左耳ELにおいて、左主音声に現れる頭部音響伝達関数G1の第1ノッチおよび第2ノッチが、より確実に補助音声によりマスキングされるためであると考えられる。
 なお、図示は省略するが、図5、図8または図11の補助信号合成部122Rに対して、図14の補助信号合成部501Lと同様に、遅延部を設けることが可能である。すなわち、加算部162Lの前段に遅延部を設け、加算部153Rとスピーカ112Rとの間であって、補助信号生成部161Rへの分岐後に遅延部を設けることが可能である。
 また、例えば、図3のバイノーラル化処理部131L、図5のバイノーラル化処理部131R、並びに、図6および図8のバイノーラル化処理部231において、ノッチ形成イコライザ141とバイノーラル信号生成部142の順序を入れ替えることが可能である。
 さらに、例えば、図6および図8のバイノーラル化処理部231において、ノッチ形成イコライザ141Lとノッチ形成イコライザ141Rを1つにまとめることが可能である。
{変形例2:仮想スピーカの位置の変形例}
 本技術は、リスニング位置の正中面から左右に外れた位置に仮想スピーカを配置する全ての場合に有効である。例えば、本技術は、仮想スピーカをリスニング位置の後方の左斜め上または右斜め上に配置する場合にも有効である。また、例えば、本技術は、仮想スピーカをリスニング位置の前方の左斜め下または右斜め下や、リスニング位置の後方の左斜め下または右斜め下に配置する場合にも有効である。さらに、例えば、本技術は、左または右に配置する場合も有効である。
{変形例3:仮想スピーカの生成に用いるスピーカの配置の変形例}
 また、以上の説明では、説明を簡単にするために、リスニング位置の前方に左右対称に配置されたスピーカを用いて仮想スピーカを生成する場合について説明した。しかし、本技術では、必ずしもスピーカをリスニング位置の前方に左右対称に配置する必要はなく、例えば、リスニング位置の前方に左右非対称にスピーカを配置することも可能である。また、本技術では、必ずしもスピーカをリスニング位置の前方に配置する必要はなく、リスニング位置の前方以外の場所(例えば、リスニング位置の後方)にスピーカを配置することも可能である。なお、スピーカを配置する場所によって、適宜クロストーク補正処理に用いる関数を変更する必要がある。
 なお、本技術は、例えば、上述したAVアンプリファイアなど、仮想サラウンド方式を実現するための各種の機器やシステムに適用することができる。
{コンピュータの構成例}
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)801,ROM(Read Only Memory)802,RAM(Random Access Memory)803は、バス804により相互に接続されている。
 バス804には、さらに、入出力インタフェース805が接続されている。入出力インタフェース805には、入力部806、出力部807、記憶部808、通信部809、及びドライブ810が接続されている。
 入力部806は、キーボード、マウス、マイクロフォンなどよりなる。出力部807は、ディスプレイ、スピーカなどよりなる。記憶部808は、ハードディスクや不揮発性のメモリなどよりなる。通信部809は、ネットワークインタフェースなどよりなる。ドライブ810は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア811を駆動する。
 以上のように構成されるコンピュータでは、CPU801が、例えば、記憶部808に記憶されているプログラムを、入出力インタフェース805及びバス804を介して、RAM803にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU801)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア811に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア811をドライブ810に装着することにより、入出力インタフェース805を介して、記憶部808にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部809で受信し、記憶部808にインストールすることができる。その他、プログラムは、ROM802や記憶部808に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、例えば、本技術は以下のような構成も取ることができる。
(1)
 所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源から遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源から近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理部と、
 前記第2の音響信号の所定の帯域の成分からなる第1の補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する第1の補助信号合成部と
 を含む音響信号処理装置。
(2)
 前記第1の補助信号の帯域は、前記リスニング位置に対して左右に配置された2つのスピーカのうちの一方のスピーカと前記リスナーの両耳のうちの一方の耳との間の第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い帯域および2番目に低い帯域、前記2つのスピーカのうちの他方のスピーカと前記リスナーの両耳のうちの他方の耳との間の第4の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第3の周波数以上において最も低い帯域および2番目に低い帯域、前記一方のスピーカと前記他方の耳との間の第5の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第4の周波数以上において最も低い帯域および2番目に低い帯域、並びに、前記他方のスピーカと前記一方の耳との間の第6の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第5の周波数以上において最も低い帯域および2番目に低い帯域を少なくとも含む
 上記(1)に記載の音響信号処理装置。
(3)
 前記第1の補助信号の加算前に前記第1の音響信号を所定の時間遅延させる第1の遅延部と、
 前記第1の補助信号の生成後に前記第2の音響信号を前記所定の時間遅延させる第2の遅延部と
 をさらに含む上記(1)または(2)に記載の音響信号処理装置。
(4)
 前記第1の補助信号合成部は、前記第1の音響信号に加算する前に前記第1の補助信号のレベルを調整する
 上記(1)乃至(3)のいずれかに記載の音響信号処理装置。
(5)
 前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号に対して、前記リスナーの両耳のうち前記第2の仮想音源から遠い方の耳と前記第2の仮想音源との間の第7の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源から近い方の耳と前記第2の仮想音源との間の第8の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第4の音響信号、並びに、前記第7の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第6の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第5の音響信号を生成する第2のトランスオーラル処理部と、
 前記第5の音響信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第4の音響信号に加算することにより第6の音響信号を生成する第2の補助信号合成部と、
 前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして左右に分かれる場合、前記3の音響信号と前記第5の音響信号を加算し、前記第2の音響信号と前記第6の音響信号を加算し、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして同じ側にある場合、前記第3の音響信号と前記第6の音響信号を加算し、前記第2の音響信号と前記第5の音響信号を加算する加算部と
 をさらに含む上記(1)乃至(4)のいずれかに記載の音響信号処理装置。
(6)
 前記第1の周波数は、前記第1の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数である
 上記(1)乃至(5)のいずれかに記載の音響信号処理装置。
(7)
 前記第1のトランスオーラル処理部は、
  前記第1の頭部音響伝達関数を前記第1の入力信号に重畳した第1のバイノーラル信号を生成する第1のバイノーラル化処理部と、
  前記第2の頭部音響伝達関数を前記第1の入力信号に重畳した信号の成分のうち、前記第1の帯域および前記第2の帯域の成分を減衰させた第2のバイノーラル信号を生成する第2のバイノーラル化処理部と、
  前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行うクロストーク補正処理部と
 を含む上記(1)乃至(6)のいずれかに記載の音響信号処理装置。
(8)
 前記第1のバイノーラル化処理部は、前記第1のバイノーラル信号の成分のうち前記第1の帯域および前記第2の帯域の成分を減衰させた第3のバイノーラル信号を生成し、
 前記クロストーク補正処理部は、前記第2のバイノーラル信号および前記第3のバイノーラル信号に対して前記クロストーク補正処理を行う
 上記(7)に記載の音響信号処理装置。
(9)
 前記第1のトランスオーラル処理部は、
  前記第1の入力信号の前記第1の帯域および前記第2の帯域の成分を減衰させた減衰信号を生成する減衰部と、
  前記第1の頭部音響伝達関数を前記減衰信号に重畳した第1のバイノーラル信号、および、前記第2の頭部音響伝達関数を前記減衰信号に重畳した第2のバイノーラル信号を生成する処理、並びに、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う信号処理部と
 を含む上記(1)乃至(6)のいずれかに記載の音響信号処理装置。
(10)
 所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成するトランスオーラル処理ステップと、
 前記第2の音響信号の所定の帯域の成分からなる補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する補助信号合成ステップと
 を含む音響信号処理方法。
(11)
 所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成するトランスオーラル処理ステップと、
 前記第2の音響信号の所定の帯域の成分からなる補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する補助信号合成ステップと
 を含む処理をコンピュータに実行させるためのプログラム。
(12)
 所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成部と、
 前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理部と、
 前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理部と
 を含む音響信号処理装置。
(13)
 前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして左右に分かれる場合、前記1の音響信号と前記第4の音響信号を加算し、前記第2の音響信号と前記第3の音響信号を加算し、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして同じ側にある場合、前記第1の音響信号と前記第3の音響信号を加算し、前記第2の音響信号と前記第4の音響信号を加算する加算部を
 さらに含む上記(12)に記載の音響信号処理装置。
(14)
 前記第1の補助信号および前記第2の補助信号の帯域は、前記リスニング位置に対して左右に配置された2つのスピーカのうちの一方のスピーカと前記リスナーの両耳のうちの一方の耳との間の第5の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第3の周波数以上において最も低い帯域および2番目に低い帯域、前記2つのスピーカのうちの他方のスピーカと前記リスナーの両耳のうちの他方の耳との間の第6の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第4の周波数以上において最も低い帯域および2番目に低い帯域、前記一方のスピーカと前記他方の耳との間の第7の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第5の周波数以上において最も低い帯域および2番目に低い帯域、並びに、前記他方のスピーカと前記一方の耳との間の第8の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第6の周波数以上において最も低い帯域および2番目に低い帯域を少なくとも含む
 上記(12)または(13)に記載の音響信号処理装置。
(15)
 前記第1の周波数は、前記第1の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数であり、
 前記第2の周波数は、前記第3の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数である
 上記(12)乃至(14)のいずれかに記載の音響信号処理装置。
(16)
 前記第1のトランスオーラル処理部は、
  前記第1の頭部音響伝達関数を前記第1の合成信号に重畳した第1のバイノーラル信号を生成する第1のバイノーラル化処理部と、
  前記第2の頭部音響伝達関数を前記第1の合成信号に重畳した信号の成分のうち、前記第1の帯域および前記第2の帯域の成分を減衰させた第2のバイノーラル信号を生成する第2のバイノーラル化処理部と、
  前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記第1の仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行う第1のクロストーク補正処理部と
 を含み、
 前記第2のトランスオーラル処理部は、
  前記第3の頭部音響伝達関数を前記第2の合成信号に重畳した第3のバイノーラル信号を生成する第3のバイノーラル化処理部と、
  前記第4の頭部音響伝達関数を前記第2の合成信号に重畳した信号の成分のうち、前記第3の帯域および前記第4の帯域の成分を減衰させた第4のバイノーラル信号を生成する第4のバイノーラル化処理部と、
  前記第3のバイノーラル信号および前記第4のバイノーラル信号に対して、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源と逆側にあるスピーカと前記第2の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源側にあるスピーカと前記第2の仮想音源から近い方の耳との間の音響伝達特性、前記第2の仮想音源と逆側にあるスピーカから前記第2の仮想音源から近い方の耳へのクロストーク、および、前記第2の仮想音源側にあるスピーカから前記第2の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行う第2のクロストーク補正処理部と
 を含む上記(12)乃至(15)のいずれかに記載の音響信号処理装置。
(17)
 前記第1のバイノーラル化処理部は、前記第1のバイノーラル信号の成分のうち前記第1の帯域および前記第2の帯域の成分を減衰させた第5のバイノーラル信号を生成し、
 前記第1のクロストーク補正処理部は、前記第2のバイノーラル信号および前記第5のバイノーラル信号に対して前記クロストーク補正処理を行い、
 前記第3のバイノーラル化処理部は、前記第3のバイノーラル信号の成分のうち前記第3の帯域および前記第4の帯域の成分を減衰させた第6のバイノーラル信号を生成し、
 前記第2のクロストーク補正処理部は、前記第4のバイノーラル信号および前記第6のバイノーラル信号に対して前記クロストーク補正処理を行う
 上記(16)に記載の音響信号処理装置。
(18)
 前記第1のトランスオーラル処理部は、
  前記第1の合成信号の前記第1の帯域および前記第2の帯域の成分を減衰させた第1の減衰信号を生成する第1の減衰部と、
  前記第1の頭部音響伝達関数を前記第1の減衰信号に重畳した第1のバイノーラル信号、および、前記第2の頭部音響伝達関数を前記第1の減衰信号に重畳した第2のバイノーラル信号を生成する処理、並びに、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記第1の仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う第1の信号処理部と
 を含み、
 前記第2のトランスオーラル処理部は、
  前記第2の合成信号の前記第3の帯域および前記第4の帯域の成分を減衰させた第2の減衰信号を生成する第2の減衰部と、
  前記第3の頭部音響伝達関数を前記第2の減衰信号に重畳した第3のバイノーラル信号、および、前記第4の頭部音響伝達関数を前記第2の減衰信号に重畳した第4のバイノーラル信号を生成する処理、並びに、前記第3のバイノーラル信号および前記第4のバイノーラル信号に対して、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源と逆側にあるスピーカと前記第2の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源側にあるスピーカと前記第2の仮想音源から近い方の耳との間の音響伝達特性、前記第2の仮想音源と逆側にあるスピーカから前記第2の仮想音源から近い方の耳へのクロストーク、および、前記第2の仮想音源側にあるスピーカから前記第2の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う信号処理部と
 を含む上記(12)乃至(15)のいずれかに記載の音響信号処理装置。
(19)
 所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成ステップと、
 前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理ステップと、
 前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理ステップと
 を含む音響信号処理方法。
(20)
 所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成ステップと、
 前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理ステップと、
 前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理ステップと
 を含む処理をコンピュータに実行させるためのプログラム。
 101L,101R 音響信号処理システム, 111L,111R 音響信号処理部, 112L,112R スピーカ, 113 仮想スピーカ, 121L,121R トランスオーラル処理部, 122L,122R 補助信号合成部, 131L,131R バイノーラル化処理部, 132 クロストーク補正処理部, 141,141L,141R ノッチ形成イコライザ, 142L,142R バイノーラル信号生成部, 151L乃至152R 信号処理部, 153L,153R 加算部, 161L,161R 補助信号生成部, 162L,162R 加算部, 201L,201R 音響信号処理システム, 211L,211R 音響信号処理部, 221 トランスオーラル処理部, 231 バイノーラル化処理部, 301L,301R 音響信号処理システム, 311L,311R 音響信号処理部, 321 トランスオーラル処理部, 331 トランスオーラル一体化処理部, 351L,351R 信号処理部, 401 オーディオシステム, 412 AVアンプリファイア, 421L,421R 音響信号処理部, 422L,422R 加算部, 451 音響信号処理部, 461 補助信号合成部, 462L,462R トランスオーラル処理部, 501L 補助信号合成部, 511L,511R 遅延部, EL 左耳, ER 右耳, G1,G2,HL,HR 頭部音響伝達関数, P リスナー

Claims (20)

  1.  所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源から遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源から近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理部と、
     前記第2の音響信号の所定の帯域の成分からなる第1の補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する第1の補助信号合成部と
     を含む音響信号処理装置。
  2.  前記第1の補助信号の帯域は、前記リスニング位置に対して左右に配置された2つのスピーカのうちの一方のスピーカと前記リスナーの両耳のうちの一方の耳との間の第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い帯域および2番目に低い帯域、前記2つのスピーカのうちの他方のスピーカと前記リスナーの両耳のうちの他方の耳との間の第4の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第3の周波数以上において最も低い帯域および2番目に低い帯域、前記一方のスピーカと前記他方の耳との間の第5の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第4の周波数以上において最も低い帯域および2番目に低い帯域、並びに、前記他方のスピーカと前記一方の耳との間の第6の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第5の周波数以上において最も低い帯域および2番目に低い帯域を少なくとも含む
     請求項1に記載の音響信号処理装置。
  3.  前記第1の補助信号を加算する前に前記第1の音響信号を所定の時間遅延させる第1の遅延部と、
     前記第1の補助信号を生成した後に前記第2の音響信号を前記所定の時間遅延させる第2の遅延部と
     をさらに含む請求項1に記載の音響信号処理装置。
  4.  前記第1の補助信号合成部は、前記第1の音響信号に加算する前に前記第1の補助信号のレベルを調整する
     請求項1に記載の音響信号処理装置。
  5.  前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号に対して、前記リスナーの両耳のうち前記第2の仮想音源から遠い方の耳と前記第2の仮想音源との間の第7の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源から近い方の耳と前記第2の仮想音源との間の第8の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第4の音響信号、並びに、前記第7の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第6の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第5の音響信号を生成する第2のトランスオーラル処理部と、
     前記第5の音響信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第4の音響信号に加算することにより第6の音響信号を生成する第2の補助信号合成部と、
     前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして左右に分かれる場合、前記3の音響信号と前記第5の音響信号を加算し、前記第2の音響信号と前記第6の音響信号を加算し、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして同じ側にある場合、前記第3の音響信号と前記第6の音響信号を加算し、前記第2の音響信号と前記第5の音響信号を加算する加算部と
     をさらに含む請求項1に記載の音響信号処理装置。
  6.  前記第1の周波数は、前記第1の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数である
     請求項1に記載の音響信号処理装置。
  7.  前記第1のトランスオーラル処理部は、
      前記第1の頭部音響伝達関数を前記第1の入力信号に重畳した第1のバイノーラル信号を生成する第1のバイノーラル化処理部と、
      前記第2の頭部音響伝達関数を前記第1の入力信号に重畳した信号の成分のうち、前記第1の帯域および前記第2の帯域の成分を減衰させた第2のバイノーラル信号を生成する第2のバイノーラル化処理部と、
      前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行うクロストーク補正処理部と
     を含む請求項1に記載の音響信号処理装置。
  8.  前記第1のバイノーラル化処理部は、前記第1のバイノーラル信号の成分のうち前記第1の帯域および前記第2の帯域の成分を減衰させた第3のバイノーラル信号を生成し、
     前記クロストーク補正処理部は、前記第2のバイノーラル信号および前記第3のバイノーラル信号に対して前記クロストーク補正処理を行う
     請求項7に記載の音響信号処理装置。
  9.  前記第1のトランスオーラル処理部は、
      前記第1の入力信号の前記第1の帯域および前記第2の帯域の成分を減衰させた減衰信号を生成する減衰部と、
      前記第1の頭部音響伝達関数を前記減衰信号に重畳した第1のバイノーラル信号、および、前記第2の頭部音響伝達関数を前記減衰信号に重畳した第2のバイノーラル信号を生成する処理、並びに、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う信号処理部と
     を含む請求項1に記載の音響信号処理装置。
  10.  所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成するトランスオーラル処理ステップと、
     前記第2の音響信号の所定の帯域の成分からなる補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する補助信号合成ステップと
     を含む音響信号処理方法。
  11.  所定のリスニング位置における正中面から左または右に外れた仮想音源用の音響信号である入力信号に対して、前記リスニング位置におけるリスナーの両耳のうち前記仮想音源から遠い方の耳と前記仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記仮想音源から近い方の耳と前記仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成するトランスオーラル処理ステップと、
     前記第2の音響信号の所定の帯域の成分からなる補助信号を前記第1の音響信号に加算することにより第3の音響信号を生成する補助信号合成ステップと
     を含む処理をコンピュータに実行させるためのプログラム。
  12.  所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成部と、
     前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理部と、
     前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理部と
     を含む音響信号処理装置。
  13.  前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして左右に分かれる場合、前記1の音響信号と前記第4の音響信号を加算し、前記第2の音響信号と前記第3の音響信号を加算し、前記第1の仮想音源と前記第2の仮想音源が前記正中面を基準にして同じ側にある場合、前記第1の音響信号と前記第3の音響信号を加算し、前記第2の音響信号と前記第4の音響信号を加算する加算部を
     さらに含む請求項12に記載の音響信号処理装置。
  14.  前記第1の補助信号および前記第2の補助信号の帯域は、前記リスニング位置に対して左右に配置された2つのスピーカのうちの一方のスピーカと前記リスナーの両耳のうちの一方の耳との間の第5の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第3の周波数以上において最も低い帯域および2番目に低い帯域、前記2つのスピーカのうちの他方のスピーカと前記リスナーの両耳のうちの他方の耳との間の第6の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第4の周波数以上において最も低い帯域および2番目に低い帯域、前記一方のスピーカと前記他方の耳との間の第7の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第5の周波数以上において最も低い帯域および2番目に低い帯域、並びに、前記他方のスピーカと前記一方の耳との間の第8の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第6の周波数以上において最も低い帯域および2番目に低い帯域を少なくとも含む
     請求項12に記載の音響信号処理装置。
  15.  前記第1の周波数は、前記第1の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数であり、
     前記第2の周波数は、前記第3の頭部音響伝達関数の4kHz近傍において正のピークが現れる周波数である
     請求項12に記載の音響信号処理装置。
  16.  前記第1のトランスオーラル処理部は、
      前記第1の頭部音響伝達関数を前記第1の合成信号に重畳した第1のバイノーラル信号を生成する第1のバイノーラル化処理部と、
      前記第2の頭部音響伝達関数を前記第1の合成信号に重畳した信号の成分のうち、前記第1の帯域および前記第2の帯域の成分を減衰させた第2のバイノーラル信号を生成する第2のバイノーラル化処理部と、
      前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記第1の仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行う第1のクロストーク補正処理部と
     を含み、
     前記第2のトランスオーラル処理部は、
      前記第3の頭部音響伝達関数を前記第2の合成信号に重畳した第3のバイノーラル信号を生成する第3のバイノーラル化処理部と、
      前記第4の頭部音響伝達関数を前記第2の合成信号に重畳した信号の成分のうち、前記第3の帯域および前記第4の帯域の成分を減衰させた第4のバイノーラル信号を生成する第4のバイノーラル化処理部と、
      前記第3のバイノーラル信号および前記第4のバイノーラル信号に対して、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源と逆側にあるスピーカと前記第2の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源側にあるスピーカと前記第2の仮想音源から近い方の耳との間の音響伝達特性、前記第2の仮想音源と逆側にあるスピーカから前記第2の仮想音源から近い方の耳へのクロストーク、および、前記第2の仮想音源側にあるスピーカから前記第2の仮想音源から遠い方の耳へのクロストークをキャンセルするクロストーク補正処理を行う第2のクロストーク補正処理部と
     を含む請求項12に記載の音響信号処理装置。
  17.  前記第1のバイノーラル化処理部は、前記第1のバイノーラル信号の成分のうち前記第1の帯域および前記第2の帯域の成分を減衰させた第5のバイノーラル信号を生成し、
     前記第1のクロストーク補正処理部は、前記第2のバイノーラル信号および前記第5のバイノーラル信号に対して前記クロストーク補正処理を行い、
     前記第3のバイノーラル化処理部は、前記第3のバイノーラル信号の成分のうち前記第3の帯域および前記第4の帯域の成分を減衰させた第6のバイノーラル信号を生成し、
     前記第2のクロストーク補正処理部は、前記第4のバイノーラル信号および前記第6のバイノーラル信号に対して前記クロストーク補正処理を行う
     請求項16に記載の音響信号処理装置。
  18.  前記第1のトランスオーラル処理部は、
      前記第1の合成信号の前記第1の帯域および前記第2の帯域の成分を減衰させた第1の減衰信号を生成する第1の減衰部と、
      前記第1の頭部音響伝達関数を前記第1の減衰信号に重畳した第1のバイノーラル信号、および、前記第2の頭部音響伝達関数を前記第1の減衰信号に重畳した第2のバイノーラル信号を生成する処理、並びに、前記第1のバイノーラル信号および前記第2のバイノーラル信号に対して、前記リスニング位置に対して左右に配置された2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源と逆側にあるスピーカと前記第1の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第1の仮想音源側にあるスピーカと前記第1の仮想音源から近い方の耳との間の音響伝達特性、前記第1の仮想音源と逆側にあるスピーカから前記第1の仮想音源から近い方の耳へのクロストーク、および、前記第1の仮想音源側にあるスピーカから前記第1の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う第1の信号処理部と
     を含み、
     前記第2のトランスオーラル処理部は、
      前記第2の合成信号の前記第3の帯域および前記第4の帯域の成分を減衰させた第2の減衰信号を生成する第2の減衰部と、
      前記第3の頭部音響伝達関数を前記第2の減衰信号に重畳した第3のバイノーラル信号、および、前記第4の頭部音響伝達関数を前記第2の減衰信号に重畳した第4のバイノーラル信号を生成する処理、並びに、前記第3のバイノーラル信号および前記第4のバイノーラル信号に対して、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源と逆側にあるスピーカと前記第2の仮想音源から遠い方の耳との間の音響伝達特性、前記2つのスピーカのうち前記正中面を基準にして前記第2の仮想音源側にあるスピーカと前記第2の仮想音源から近い方の耳との間の音響伝達特性、前記第2の仮想音源と逆側にあるスピーカから前記第2の仮想音源から近い方の耳へのクロストーク、および、前記第2の仮想音源側にあるスピーカから前記第2の仮想音源から遠い方の耳へのクロストークをキャンセルする処理を一体化して行う信号処理部と
     を含む請求項12に記載の音響信号処理装置。
  19.  所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成ステップと、
     前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理ステップと、
     前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理ステップと
     を含む音響信号処理方法。
  20.  所定のリスニング位置における正中面から左または右に外れた第1の仮想音源用の音響信号である第1の入力信号に、前記正中面から左または右に外れた第2の仮想音源用の音響信号である第2の入力信号の所定の帯域の成分からなる第1の補助信号を加算することにより第1の合成信号を生成し、前記第1の入力信号の前記第1の補助信号と同じ帯域の成分からなる第2の補助信号を前記第2の入力信号に加算することにより第2の合成信号を生成する補助信号合成ステップと、
     前記リスニング位置におけるリスナーの両耳のうち前記第1の仮想音源に遠い方の耳と前記第1の仮想音源との間の第1の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第1の仮想音源に近い方の耳と前記第1の仮想音源との間の第2の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第1の合成信号に対して行うことにより、第1の音響信号、並びに、前記第1の頭部音響伝達関数において振幅が所定の深さ以上となる負のピークであるノッチが現れる帯域のうち所定の第1の周波数以上において最も低い第1の帯域および2番目に低い第2の帯域の成分が減衰された第2の音響信号を生成する第1のトランスオーラル処理ステップと、
     前記リスナーの両耳のうち前記第2の仮想音源に遠い方の耳と前記第2の仮想音源との間の第3の頭部音響伝達関数、および、前記リスナーの両耳のうち前記第2の仮想音源に近い方の耳と前記第2の仮想音源との間の第4の頭部音響伝達関数を用いた所定のトランスオーラル処理を前記第2の合成信号に対して行うことにより、第3の音響信号、並びに、前記第3の頭部音響伝達関数において前記ノッチが現れる帯域のうち所定の第2の周波数以上において最も低い第3の帯域および2番目に低い第4の帯域の成分が減衰された第4の音響信号を生成する第2のトランスオーラル処理ステップと
     を含む処理をコンピュータに実行させるためのプログラム。
PCT/JP2015/061790 2014-04-30 2015-04-17 音響信号処理装置、音響信号処理方法、および、プログラム WO2015166814A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/305,694 US9998846B2 (en) 2014-04-30 2015-04-17 Acoustic signal processing device and acoustic signal processing method
US15/972,295 US10462597B2 (en) 2014-04-30 2018-05-07 Acoustic signal processing device and acoustic signal processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014093511A JP2015211418A (ja) 2014-04-30 2014-04-30 音響信号処理装置、音響信号処理方法、および、プログラム
JP2014-093511 2014-04-30

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/305,694 A-371-Of-International US9998846B2 (en) 2014-04-30 2015-04-17 Acoustic signal processing device and acoustic signal processing method
US15/972,295 Continuation US10462597B2 (en) 2014-04-30 2018-05-07 Acoustic signal processing device and acoustic signal processing method

Publications (1)

Publication Number Publication Date
WO2015166814A1 true WO2015166814A1 (ja) 2015-11-05

Family

ID=54358547

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/061790 WO2015166814A1 (ja) 2014-04-30 2015-04-17 音響信号処理装置、音響信号処理方法、および、プログラム

Country Status (3)

Country Link
US (2) US9998846B2 (ja)
JP (1) JP2015211418A (ja)
WO (1) WO2015166814A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109644316A (zh) * 2016-08-16 2019-04-16 索尼公司 声信号处理装置、声信号处理方法及程序
CN112567766A (zh) * 2018-08-17 2021-03-26 索尼公司 信号处理装置、信号处理方法和程序

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110856095B (zh) 2018-08-20 2021-11-19 华为技术有限公司 音频处理方法和装置
US20220095054A1 (en) 2019-01-09 2022-03-24 Sony Group Corporation Sound output apparatus and sound output method
US20220295213A1 (en) * 2019-08-02 2022-09-15 Sony Group Corporation Signal processing device, signal processing method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258497A (ja) * 2009-04-21 2010-11-11 Sony Corp 音響処理装置、音像定位処理方法および音像定位処理プログラム
JP2011151633A (ja) * 2010-01-22 2011-08-04 Panasonic Corp マルチチャンネル音響再生装置
JP2011160179A (ja) * 2010-02-01 2011-08-18 Panasonic Corp 音声処理装置
JP2013110682A (ja) * 2011-11-24 2013-06-06 Sony Corp 音響信号処理装置、音響信号処理方法、プログラム、および、記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4975954A (en) * 1987-10-15 1990-12-04 Cooper Duane H Head diffraction compensated stereo system with optimal equalization
GB9324240D0 (en) * 1993-11-25 1994-01-12 Central Research Lab Ltd Method and apparatus for processing a bonaural pair of signals
TW379512B (en) * 1997-06-30 2000-01-11 Matsushita Electric Ind Co Ltd Apparatus for localization of a sound image
GB9805534D0 (en) * 1998-03-17 1998-05-13 Central Research Lab Ltd A method of improving 3d sound reproduction
KR20050060789A (ko) * 2003-12-17 2005-06-22 삼성전자주식회사 가상 음향 재생 방법 및 그 장치
EP1858296A1 (en) * 2006-05-17 2007-11-21 SonicEmotion AG Method and system for producing a binaural impression using loudspeakers
US8619998B2 (en) * 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
JP5540581B2 (ja) * 2009-06-23 2014-07-02 ソニー株式会社 音声信号処理装置および音声信号処理方法
JP5533248B2 (ja) * 2010-05-20 2014-06-25 ソニー株式会社 音声信号処理装置および音声信号処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258497A (ja) * 2009-04-21 2010-11-11 Sony Corp 音響処理装置、音像定位処理方法および音像定位処理プログラム
JP2011151633A (ja) * 2010-01-22 2011-08-04 Panasonic Corp マルチチャンネル音響再生装置
JP2011160179A (ja) * 2010-02-01 2011-08-18 Panasonic Corp 音声処理装置
JP2013110682A (ja) * 2011-11-24 2013-06-06 Sony Corp 音響信号処理装置、音響信号処理方法、プログラム、および、記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109644316A (zh) * 2016-08-16 2019-04-16 索尼公司 声信号处理装置、声信号处理方法及程序
CN109644316B (zh) * 2016-08-16 2021-03-30 索尼公司 声信号处理装置、声信号处理方法及程序
CN112567766A (zh) * 2018-08-17 2021-03-26 索尼公司 信号处理装置、信号处理方法和程序
US11743671B2 (en) 2018-08-17 2023-08-29 Sony Corporation Signal processing device and signal processing method

Also Published As

Publication number Publication date
JP2015211418A (ja) 2015-11-24
US20180255416A1 (en) 2018-09-06
US9998846B2 (en) 2018-06-12
US10462597B2 (en) 2019-10-29
US20170127210A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
US20220322026A1 (en) Method and apparatus for rendering acoustic signal, and computerreadable recording medium
KR100644617B1 (ko) 7.1 채널 오디오 재생 방법 및 장치
US9253573B2 (en) Acoustic signal processing apparatus, acoustic signal processing method, program, and recording medium
KR100636252B1 (ko) 공간 스테레오 사운드 생성 방법 및 장치
KR102160254B1 (ko) 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
WO2012042905A1 (ja) 音響再生装置および音響再生方法
WO2015166814A1 (ja) 音響信号処理装置、音響信号処理方法、および、プログラム
JP6922916B2 (ja) 音響信号処理装置、音響信号処理方法、および、プログラム
US8320590B2 (en) Device, method, program, and system for canceling crosstalk when reproducing sound through plurality of speakers arranged around listener
JP5787128B2 (ja) 音響システム、音響信号処理装置および方法、並びに、プログラム
JP2015128208A (ja) スピーカ装置
JP4951985B2 (ja) 音声信号処理装置、音声信号処理システム、プログラム
KR100725818B1 (ko) 최적 가상음원을 제공하는 음향재생장치 및 음향재생방법
WO2016121519A1 (ja) 音響信号処理装置、音響信号処理方法、及び、プログラム
JP2985704B2 (ja) サラウンド信号処理装置
KR102290417B1 (ko) 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
US11470435B2 (en) Method and device for processing audio signals using 2-channel stereo speaker
KR102217832B1 (ko) 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
JP2015126527A (ja) スピーカ装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15785486

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15305694

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15785486

Country of ref document: EP

Kind code of ref document: A1