WO2018150766A1 - 頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム - Google Patents

頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム Download PDF

Info

Publication number
WO2018150766A1
WO2018150766A1 PCT/JP2018/000382 JP2018000382W WO2018150766A1 WO 2018150766 A1 WO2018150766 A1 WO 2018150766A1 JP 2018000382 W JP2018000382 W JP 2018000382W WO 2018150766 A1 WO2018150766 A1 WO 2018150766A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
head localization
stereo
pressure level
subtraction
Prior art date
Application number
PCT/JP2018/000382
Other languages
English (en)
French (fr)
Inventor
優美 藤井
村田 寿子
敬洋 下条
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Priority to EP18754345.9A priority Critical patent/EP3585077A4/en
Priority to CN201880012200.5A priority patent/CN110313188B/zh
Publication of WO2018150766A1 publication Critical patent/WO2018150766A1/ja
Priority to US16/545,909 priority patent/US10779107B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to an out-of-head localization processing apparatus, an out-of-head localization processing method, and an out-of-head localization processing program.
  • Patent Document 1 As a sound image localization technology, there is an out-of-head localization technology that uses a binaural headphone to localize a sound image outside the listener's head (Patent Document 1).
  • a sound image localization filter including a result of convolution of an inverse headphone response and a spatial response is used.
  • the spatial response is obtained by measuring the spatial transfer characteristic (head related transfer function HRTF) from the sound source (speaker) to the ear.
  • the inverse headphone response is an inverse filter that cancels the characteristic (ear canal transfer function ECTF) from the headphones to the ear to the eardrum.
  • head related transfer function HRTF head related transfer function
  • ECTF ear canal transfer function
  • Non-patent Document 1 a normal hearing person has a louder loudness when listening with both ears than when listening with one ear. This is called the “binaural effect”. In addition, due to the binaural effect, there is a report that the loudness addition by both ears changes by about 5 to 6 [dB] and further changes by 10 [dB] (Non-patent Document 1).
  • Non-Patent Document 2 when sound is given from two speakers as in stereo playback, when one sound has a delay or the like and can be heard as a real sound source in two places, it is also an imaginary synthesized from the sound of the two sound sources. Even when it is heard as a sound image, it can be considered that the addition of loudness is exactly the same as the monophonic phenomenon.
  • the binaural effect occurs not only for the virtual sound image synthesized from the two speakers arranged on the left and right, but also for the sound image of the out-of-head localization hearing device presented with headphones and earphones.
  • the headphone is closer to the ear from the playback unit than the speaker, so that the volume is high and it is easy to hear.
  • the sound pressure level applied to each ear was fixed for the sound image of the phantom center generated by the stereo speaker, the sound image of the phantom center generated by the stereo headphones, and the phantom sound image of the out-of-head localization headphones. We compared the loudness of the time.
  • the volume of the phantom sound image generated by the stereo headphones and the out-of-head localization headphones is larger than the volume of the phantom sound image generated by the stereo speakers. .
  • the sound volume is higher when the sound is reproduced with headphones than when the sound is reproduced with speakers, and the binaural effect is enhanced.
  • the phantom sound image generated by the out-of-head localization headphones is further emphasized by the binaural effect than the simulated speaker sound field when reproduced by the headphones.
  • the localization of a sound image localized at a phantom center such as vocals can be easily felt.
  • the volume of the phantom sound image generated by the stereo headphones or the out-of-head localization headphone and the volume of the phantom sound image generated by the stereo speaker are reversed.
  • the volume of the sound image localized at the phantom center such as vocals can be heard more greatly when reproduced with stereo headphones or out-of-head localization headphones.
  • the present embodiment has been made in view of the above points, and an object thereof is to provide an out-of-head localization processing apparatus, an out-of-head localization processing method, and an out-of-head localization processing program that can appropriately perform out-of-head localization processing. .
  • the out-of-head localization processing apparatus includes an in-phase signal calculation unit that calculates an in-phase signal of a stereo reproduction signal, a ratio setting unit that sets a subtraction ratio for subtracting the in-phase signal, and the subtraction A subtraction unit that generates a correction signal by subtracting the in-phase signal from the stereo reproduction signal according to the ratio and a convolution process on the correction signal using a spatial acoustic transfer characteristic, thereby performing a convolution operation.
  • a convolution operation unit that generates a signal, and a filter that performs a filtering process on the convolution operation signal so as to generate an output signal, and a headphone or an earphone.
  • an output unit that outputs the output.
  • the out-of-head localization processing method includes a step of calculating an in-phase signal of a stereo reproduction signal, a step of setting a subtraction ratio for subtracting the in-phase signal, and the subtraction ratio, Generating a correction signal by subtracting the in-phase signal from the stereo reproduction signal; and generating a convolution operation signal by performing a convolution process on the correction signal using spatial acoustic transfer characteristics; And a step of performing a filtering process on the convolution calculation signal using a filter, and a step of generating an output signal, and a step of outputting the output signal to a user having headphones or earphones. It is a thing.
  • the out-of-head localization processing program includes a step of calculating an in-phase signal of a stereo reproduction signal, a step of setting a subtraction ratio for subtracting the in-phase signal, and the subtraction ratio, Generating a correction signal by subtracting the in-phase signal from the stereo reproduction signal; and generating a convolution operation signal by performing a convolution process on the correction signal using spatial acoustic transfer characteristics;
  • a filter is used to perform a filtering process on the convolution operation signal to generate an output signal, and a headphone or an earphone that outputs the output signal to the user. It is what is executed by a computer.
  • an out-of-head localization processing apparatus an out-of-head localization processing method, and an out-of-head localization processing program that can appropriately perform out-of-head localization processing can be provided.
  • FIG. 10 is a diagram illustrating a coefficient table setting process according to the second embodiment; 10 is a graph for explaining a coefficient table in the second embodiment.
  • the out-of-head localization processing according to this embodiment performs out-of-head localization processing using an individual's spatial acoustic transfer characteristic (also referred to as a spatial acoustic transfer function) and an external auditory canal transfer characteristic (also referred to as an external auditory canal transfer function).
  • the out-of-head localization processing is realized by using the spatial acoustic transmission characteristic from the speaker to the listener's ear and the inverse characteristic of the external auditory canal transmission characteristic when the headphones are worn.
  • an ear canal transmission characteristic that is a characteristic from the headphone speaker unit to the ear canal entrance with the headphone mounted is used. Then, convolution processing is performed using an inverse characteristic of the ear canal transfer characteristic (also referred to as an ear canal correction function) to cancel the ear canal transfer characteristic.
  • an inverse characteristic of the ear canal transfer characteristic also referred to as an ear canal correction function
  • the out-of-head localization processing apparatus has an information processing apparatus such as a personal computer, a smart phone, and a tablet PC, and includes processing means such as a processor, storage means such as a memory and a hard disk, and a liquid crystal monitor. Display means, input means such as a touch panel, buttons, keyboard and mouse, and output means having headphones or earphones are provided.
  • processing means such as a processor, storage means such as a memory and a hard disk, and a liquid crystal monitor.
  • Display means input means such as a touch panel, buttons, keyboard and mouse, and output means having headphones or earphones are provided.
  • the out-of-head localization processing device is a smartphone.
  • the smart phone processor executes an out-of-head localization process by executing an application program (application) for performing the out-of-head localization process.
  • an application program is available via a network such as the Internet.
  • FIG. 1 is a block diagram of the out-of-head localization processing apparatus 100.
  • the out-of-head localization processing apparatus 100 reproduces a sound field for the user U wearing the headphones 45. Therefore, the out-of-head localization processing apparatus 100 performs out-of-head localization processing on the Lch and Rch stereo input signals SrcL and SrcR.
  • the Lch and Rch stereo input signals SrcL and SrcR are analog audio playback signals output from a CD (Compact Disc) player or the like, or digital audio data such as mp3 (MPEG Audio Layer-3).
  • the out-of-head localization processing apparatus 100 is not limited to a physically single apparatus, and some processes may be performed by different apparatuses. For example, a part of the processing may be performed by a personal computer, a smart phone, or the like, and the remaining processing may be performed by a DSP (Digital Signal Processor) incorporated in the headphone 45 or the like.
  • DSP Digital Signal Processor
  • the out-of-head localization processing apparatus 100 includes an arithmetic processing unit 110 and headphones 45.
  • the arithmetic processing unit 110 includes a correction processing unit 50, an out-of-head localization processing unit 10, filter units 41 and 42, D / A (Digital-to-Analog) converters 43 and 44, and a volume acquisition unit 61. Yes.
  • the arithmetic processing unit 110 performs processing in the correction processing unit 50, the out-of-head localization processing unit 10, the filter units 41 and 42, and the sound volume acquisition unit 61 by executing a program stored in the memory.
  • the arithmetic processing unit 110 is a smart phone or the like, and executes an application for out-of-head localization processing.
  • the D / A converters 43 and 44 may be incorporated in the arithmetic processing unit 110 or the headphones 45.
  • the connection between the arithmetic processing unit 110 and the headphones 45 may be a wired connection or a wireless connection such as Bluetooth (registered trademark).
  • the correction processing unit 50 includes an adder 51, a ratio setting unit 52, subtracters 53 and 54, and a correlation determination unit 56.
  • the adder 51 is an in-phase signal calculation unit that calculates an in-phase signal SrcIp of the stereo input signals SrcL and SrcR based on the stereo input signals SrcL and SrcR. For example, the adder 51 generates the in-phase signal SrcIp by adding the stereo input signals SrcL and SrcR to a half.
  • FIG. 2 to 4 show examples of the stereo input signals SrcL and SrcR and the in-phase signal SrcIp.
  • 2 is a waveform diagram showing an Lch stereo input signal SrcL
  • FIG. 3 is a waveform diagram showing an Rch stereo input signal SrcR
  • FIG. 4 is a waveform diagram showing the in-phase signal SrcIp. 2 to 4, the horizontal axis represents time, and the vertical axis represents amplitude.
  • the correction processing unit 50 corrects the stereo input signals SrcL and SrcR by subtracting and adjusting the ratio of the in-phase signal SrcIp of the stereo input signals SrcL and SrcR based on the reproduction volume of the stereo input signals SrcL and SrcR. Therefore, the ratio setting unit 52 sets a ratio (referred to as a subtraction ratio Amp1) for subtracting the in-phase signal SrcIp.
  • the subtractor 53 subtracts the in-phase signal SrcIp from the stereo input signal SrcL with the set subtraction ratio Amp1 to generate an Lch correction signal SrcL ′.
  • the subtractor 54 subtracts the in-phase signal SrcIp from the Rch stereo input signal SrcR at the set subtraction ratio Amp1 to generate an Rch correction signal SrcR ′.
  • the correction signals SrcL ′ and SrcR ′ are obtained by the following equations (2) and (3).
  • Amp1 is a subtraction ratio and can take a value of 0% to 100%
  • SrcL ′ SrcL ⁇ SrcIp * Amp1
  • SrcR ′ SrcR ⁇ SrcIp * Amp1 (3)
  • FIG. 5 and FIG. 6 show examples of the correction signals SrcL ′ and SrcR ′.
  • FIG. 5 is a waveform diagram showing the Lch correction signal SrcL '.
  • FIG. 6 is a waveform diagram showing the Rch correction signal SrcR ′.
  • the subtraction ratio Amp1 is 50%.
  • the subtractor 53 subtracts the in-phase signal SrcIp from the stereo input signals SrcL and SrcR according to the subtraction ratio.
  • the ratio setting unit 52 multiplies the in-phase signal SrcIp by the subtraction ratio Amp1 and outputs the result to the subtracters 53 and 54.
  • the ratio setting unit 52 stores a coefficient m for setting the subtraction ratio Amp1.
  • the coefficient m is set according to the reproduction volume chVol.
  • the ratio setting unit 52 stores a coefficient table in which the coefficient m and the reproduction volume chVol are associated with each other.
  • the ratio setting unit 52 changes the coefficient m in accordance with the reproduction volume chVol acquired by the volume acquisition unit 61 described later.
  • an appropriate subtraction ratio Amp1 can be set according to the reproduction volume chVol.
  • the stereo input signals SrcL and SrcR are input to the correlation determination unit 56 in order to determine how much in-phase components are included in the stereo input signals SrcL and SrcR.
  • the correlation determination unit 56 determines the correlation between the Lch stereo input signal SrcL and the Rch stereo input signal SrcR. For example, the correlation determination unit 56 obtains a cross-correlation function between the Lch stereo input signal SrcL and the Rch stereo input signal SrcR. And the correlation determination part 56 determines whether a correlation is high based on a cross correlation function. For example, the correlation determination unit 56 performs determination according to the comparison result between the cross-correlation function and the correlation threshold.
  • the cross-correlation function is 1 (100%)
  • the two signals are matched, that is, there is a correlation
  • the cross-correlation function is 0 when there is no correlation
  • the cross-correlation function is ⁇ 1 ( ⁇ 100 %) Is a state in which the signals obtained by reversing the positive / negative of one of the two signals coincide, that is, the state of the inverse correlation.
  • a correlation threshold is provided in the cross-correlation function, and the cross-correlation function and the correlation threshold are compared.
  • a case where the cross-correlation function is equal to or higher than the correlation threshold is defined as high correlation
  • a case where the cross-correlation function is smaller than the correlation threshold is defined as low correlation.
  • the correlation threshold can be 80%.
  • the correlation threshold value is always set to a positive value.
  • the stereo input signals SrcL and SrcR are output as they are to the out-of-head localization processing unit 10 without performing the correction processing by the correction processing unit 50. That is, the correction processing unit 50 outputs the in-phase signal without subtracting from the stereo input signals SrcL and SrcR. Therefore, the correction signals SrcL ′ and SrcR ′ coincide with the stereo input signals SrcL and SrcR. In other words, Amp1 in Expression (2) and Expression (3) is 0.
  • the correction processing unit 50 subtracts a signal obtained by multiplying the in-phase signal SrcIp by the subtraction ratio Amp1 from the stereo input signals SrcL and SrcR, and outputs the result as correction signals SrcL ′ and SrcR ′. That is, the correction processing unit 50 calculates the correction signals SrcL ′ and SrcR ′ based on the expressions (2) and (3). Thereby, stereo correction signals SrcL ′ and SrcR ′ in which the ratio of the in-phase components generated from the stereo input signals SrcL and SrcR are adjusted are generated.
  • the subtracters 53 and 54 perform subtraction. Then, the convolution operation units 11, 12, 21, and 22 perform convolution processing on the correction signals SrcL ′ and SrcR ′ obtained by subtracting the in-phase signal SrcIp from the stereo input signals SrcL and SrcR. On the other hand, when the correlation does not satisfy a predetermined condition, the subtracters 53 and 54 do not perform subtraction, and the convolution processing units 11, 12, 21, and 22 use the stereo reproduction signals SrcL and SrcR as the correction signals SrcL ′ and SrcR ′. The convolution process is performed.
  • the convolution processing units 11, 12, 21, and 22 perform convolution processing on the stereo reproduction signals SrcL and SrcR.
  • the correlation for example, a cross correlation function can be used.
  • the correction processing unit 50 determines whether or not to perform subtraction processing according to the comparison result between the cross-correlation function and the correlation threshold.
  • the out-of-head localization processing unit 10 includes convolution operation units 11 to 12, convolution operation units 21 to 22, amplifiers 13 and 14, amplifiers 23 and 24, and adders 26 and 27.
  • the convolution operation units 11 to 12 and 21 to 22 perform convolution processing using spatial acoustic transfer characteristics.
  • Correction signals SrcL ′ and SrcR ′ from the correction processing unit 50 are input to the out-of-head localization processing unit 10.
  • Spatial acoustic transfer characteristics are set in the out-of-head localization processing unit 10.
  • the out-of-head localization processing unit 10 convolves the spatial acoustic transfer characteristics with the correction signals SrcL ′ and SrcR ′ of each channel.
  • the spatial acoustic transfer characteristic may be a head-related transfer function HRTF measured with the head or auricle of the user U himself, or may be a dummy head or a third-party head-related transfer function. These transfer characteristics may be measured on the spot or may be prepared in advance.
  • Spatial acoustic transmission characteristics are four transmission characteristics from the speaker to the ear, including the transmission characteristics Hls from SpL to the left ear, the transmission characteristics Hlo from SpL to the right ear, the transmission characteristics Hro from SpR to the left ear, and the right from SpR to the right ear. It has a transfer characteristic Hrs to the ear.
  • the convolution operation unit 11 convolves the transfer characteristic Hls with the Lch correction signal SrcL ′.
  • the convolution operation unit 11 outputs a convolution operation signal to the adder 26 via the amplifier 13.
  • the convolution operation unit 21 convolves the transfer characteristic Hro with the Rch correction signal SrcR ′.
  • the convolution operation unit 21 outputs a convolution operation signal to the adder 26 via the amplifier 23.
  • the adder 26 adds the two convolution operation signals and outputs them to the filter unit 41.
  • the convolution operation unit 12 convolves the transfer characteristic Hlo with the Lch correction signal SrcL ′.
  • the convolution operation unit 12 outputs the convolution operation signal to the adder 27 via the amplifier 14.
  • the convolution calculator 22 convolves the transfer characteristic Hrs with the Rch correction signal SrcR ′.
  • the convolution operation unit 22 outputs the convolution operation signal to the adder 27 via the amplifier 24.
  • the adder 27 adds the two convolution operation signals and outputs the result to the filter unit 42.
  • the amplifiers 13, 14, 23, and 24 amplify the convolution operation signal with a predetermined amplification factor Amp2.
  • the amplification factors Amp2 of the amplifiers 13, 14, 23, and 24 may be the same or different.
  • the sound volume acquisition unit 61 acquires the sound volume during reproduction (or the sound pressure level during reproduction) chVol according to the amplification factor Amp2 of the amplifiers 13, 14, 23, and 24.
  • the method for acquiring the volume chVol is not particularly limited.
  • the volume chVol may be acquired based on the volume (Vol) of the headphones 45 or the smartphone operated by the user. Alternatively, the volume chVol may be acquired based on output signals outL and outR described later.
  • the volume acquisition unit 61 outputs the volume chVol to the ratio setting unit 52.
  • FIG. 7 is a schematic diagram showing a filter generation device 200 for measuring four transfer characteristics Hls, Hlo, Hro, and Hrs.
  • the filter generation device 200 includes a stereo speaker 5 and a stereo microphone 2. Furthermore, the filter generation device 200 includes a processing device 201.
  • the processing device 201 stores the collected sound signal in a memory or the like.
  • the processing device 201 is an arithmetic processing device including a memory, a processor, and the like, and specifically a personal computer or the like.
  • the processing device 201 performs processing according to a computer program stored in advance.
  • the stereo speaker 5 includes a left speaker 5L and a right speaker 5R.
  • a left speaker 5L and a right speaker 5R are installed in front of the listener 1.
  • the left speaker 5L and the right speaker 5R output measurement signals in order to measure spatial acoustic transfer characteristics from the speakers to the ears.
  • the measurement signal may be an impulse signal, a TSP (Time Stretched Pulse) signal, or the like.
  • the stereo microphone 2 has a left microphone 2L and a right microphone 2R.
  • the left microphone 2L is installed in the left ear 9L of the listener 1
  • the right microphone 2R is installed in the right ear 9R of the listener 1.
  • the microphones 2L and 2R may be disposed anywhere between the ear canal entrance and the eardrum.
  • the microphones 2L and 2R collect the measurement signal output from the stereo speaker 5 and acquire the collected sound signal.
  • the listener 1 may be the same person as the user U of the out-of-head localization processing apparatus 100, or may be a different person.
  • the listener 1 may be a person or a dummy head. That is, in this embodiment, the listener 1 is a concept including not only a person but also a dummy head.
  • the spatial transfer characteristics are measured by collecting the measurement signals output from the left and right speakers 5L and 5R with the microphones 2L and 2R.
  • the processing device 201 stores the measured spatial transfer characteristics in a memory.
  • the transfer characteristic Hls between the left speaker 5L and the left microphone 2L, the transfer characteristic Hlo between the left speaker 5L and the right microphone 2R, the transfer characteristic Hro between the right speaker 5L and the left microphone 2L, the right speaker A transfer characteristic Hrs between 5R and the right microphone 2R is measured. That is, the transfer characteristic Hls is acquired by the left microphone 2L collecting the measurement signal output from the left speaker 5L.
  • the transfer characteristic Hlo is acquired by the right microphone 2R collecting the measurement signal output from the left speaker 5L.
  • the transfer characteristic Hro is acquired.
  • the transfer characteristic Hrs is acquired.
  • the processing device 201 generates a filter corresponding to the transfer characteristics Hls to Hrs from the left and right speakers 5L and 5R to the left and right microphones 2L and 2R based on the collected sound signal. Specifically, the processing device 201 cuts out the transfer characteristics Hls to Hrs with a predetermined filter length and generates them as filters used for the convolution calculation of the out-of-head localization processing unit 10. As shown in FIG. 1, the out-of-head localization processing apparatus 100 performs out-of-head localization processing using transfer characteristics Hls to Hrs between the left and right speakers 5L and 5R and the left and right microphones 2L and 2R. That is, the out-of-head localization process is performed by convolving the correction signals SrcL ′ and SrcR ′ with the transfer characteristics Hls to Hrs.
  • inverse filters Linv and Rinv that cancel the ear canal transmission characteristics (also referred to as headphone characteristics) from the headphones 45 to the microphones 2L and 2R are set. Then, the inverse filters Linv and Rinv are convolved with the convolution calculation signals added by the adders 26 and 27, respectively.
  • the filter unit 41 convolves the inverse filter Linv with the Lch convolution operation signal from the adder 26.
  • the filter unit 42 convolves the inverse filter Rinv with the Rch convolution operation signal from the adder 27.
  • the inverse filters Linv and Rinv cancel characteristics from the output unit of the headphone 45 to the microphone when the headphone 45 is attached.
  • the microphone may be placed anywhere from the ear canal entrance to the eardrum.
  • the inverse filters Linv and Rinv may be calculated from the result of measuring the characteristics of the user U on the spot, or the inverse filters calculated from the headphone characteristics measured using a dummy head or an arbitrary outer ear such as a third party. May be prepared in advance.
  • the left unit 45L outputs a measurement signal toward the left ear 9L of the listener 1.
  • the right unit 45R outputs a measurement signal toward the right ear 9R of the listener 1.
  • the microphone 7 is installed in the left ear 9L of the listener 1, and the right microphone 2R is installed in the right ear 9R of the listener 1.
  • the microphone may be placed anywhere from the ear canal entrance to the eardrum.
  • the microphones 2L and 2R collect the measurement signals output from the headphones 45 and acquire the sound collection signals. That is, the measurement is performed with the listener 1 wearing the headphones 45 and the stereo microphone 2.
  • the measurement signal may be an impulse signal, a TSP (Time Stretched Pulse) signal, or the like. Then, based on the collected sound signal, an inverse characteristic of the headphone characteristic is calculated, and an inverse filter is generated.
  • the filter unit 41 outputs the filtered Lch output signal outL to the D / A converter 43.
  • the D / A converter 43 D / A converts the output signal outL and outputs it to the left unit 45L of the headphones 45.
  • the filter unit 42 outputs the filtered Rch output signal outR to the D / A converter 44.
  • the D / A converter 44 D / A converts the output signal outR and outputs it to the right unit 45R of the headphones 45.
  • the headphone 45 outputs an Lch output signal and an Rch output signal to the user U. Thereby, the sound image localized outside the user U's head can be reproduced.
  • the correction processing unit 50 subtracts the in-phase signal SrcIp from the stereo input signals SrcL and SrcR.
  • the in-phase signal SrcIp is corrected to an appropriate volume so as to be the same as the speaker sound field by suppressing the in-phase component strengthened by the fluctuation of the volume and the binaural effect by playing with the headphones.
  • Localization listening can be performed. Therefore, it is possible to appropriately perform sound image localization processing. For example, it is possible to suppress the localization of a sound image such as a vocal localized at a phantom center generated by out-of-head localization headphones from being emphasized by a change in volume or a binaural effect. Therefore, it is possible to prevent the sound image localized at the phantom center generated by the out-of-head localization headphones from being easily felt.
  • the subtraction ratio Amp1 is variable.
  • the ratio setting unit 52 changes the subtraction ratio Amp1 of the in-phase signal according to the reproduction volume chVol. That is, when the reproduction volume chVol changes, the ratio setting unit 52 changes the value of the subtraction ratio Amp1.
  • FIG. 8 is a flowchart showing the correction process in the correction processing unit 50.
  • the processing shown in FIG. 8 is performed in the correction processing unit 50 of FIG.
  • the processor of the out-of-head localization processing apparatus 100 executes the computer program to execute the process of FIG.
  • a coefficient m [dB] is set as a coefficient for obtaining the subtraction ratio Amp1.
  • the coefficient m [dB] is stored in the ratio setting unit 52 as a coefficient table corresponding to the reproduction volume chVol.
  • the coefficient m [dB] is a value that specifies how many dB the stereo input signals SrcL and SrcR are lowered.
  • the correction processing unit 50 acquires one frame from the stereo input signals SrcL and SrcR (S101).
  • the volume acquisition unit 61 acquires the playback volume chVol (S102).
  • the volume acquisition unit 61 determines whether or not the playback volume chVol is within a control range described later (S103).
  • the correction processing unit 50 ends the process without performing correction. That is, the correction processing unit 50 outputs the stereo input signals SrcL and SrcR as they are.
  • the ratio setting unit 52 refers to the coefficient table and sets the coefficient m [dB] (S104). As described above, the reproduction volume chVol is input from the volume acquisition unit 61 to the ratio setting unit 52. In the coefficient table, the reproduction volume chVol and the coefficient m [dB] are associated with each other. The ratio setting unit 52 can set an appropriate subtraction ratio Amp1 according to the reproduction volume chVol. The ratio setting unit 52 stores a coefficient table in advance. The creation of the coefficient table will be described later.
  • the correlation determination unit 56 determines the correlation of the stereo input signals SrcL and SrcR frame by frame (S105). Specifically, the correlation determination unit 56 determines whether or not the cross-correlation function of the stereo input signals SrcL and SrcR is greater than or equal to a correlation threshold (for example, 80%).
  • a correlation threshold for example, 80%
  • Cross-correlation function phi 12 is given by the following equation (4).
  • G1 (x) is a stereo input signal SrcL for one frame
  • g2 (x) is a stereo input signal SrcR for one frame.
  • the cross-correlation function is normalized so that the autocorrelation becomes 1.
  • the process is terminated without performing correction.
  • the correlation between the stereo input signals SrcL and SrcR is low, that is, when the in-phase signal SrcIp of the stereo input signals SrcL and SrcR has a small number of in-phase components, the number of in-phase signals that can be extracted is small, so that the correction process may not be performed.
  • the correlation threshold may be changed according to the music to be played and the music genre.
  • the correlation threshold value for classical music may be 90%
  • the correlation threshold value for JAZZ may be 80%
  • the correlation threshold value for music that has a lot of vocals in the phantom center such as JPOP may be 65%.
  • the subtractors 53 and 54 subtract the in-phase signal SrcIp from the stereo input signals SrcL and SrcR according to the subtraction ratio Amp1 (S106). That is, the correction signals SrcL ′ and SrcR ′ are calculated based on the equations (2) and (3).
  • the processes of S101 to S106 are repeated. That is, the processing of S101 to S106 is performed for each frame.
  • the reproduction volume chVol is changed, a change in volume is detected for each frame, so that the coefficient m is adjusted to match the reproduction volume chVol even during reproduction of the stereo input signals SrcL and SrcR.
  • the unit of the coefficient m [dB] is decibel [dB]. Therefore, the subtraction ratio Amp1 for the coefficient m [dB] between the stereo input signals SrcL and SrcR can be obtained by the following equation (5).
  • the correction processing unit 50 generates the correction signals SrcL ′ and SrcR ′ by subtracting the signal obtained by multiplying the in-phase signal SrcIp by the subtraction ratio Amp1 from the stereo input signals SrcL and SrcR. Based on the correction signals SrcL ′ and SrcR ′, the out-of-head localization processing unit 10, the filter unit 41, and the filter unit 42 perform processing. By doing so, it is possible to appropriately perform out-of-head localization processing, and it is possible to reduce the enhancement of the sound image localized at the phantom center due to volume fluctuations or binaural effects. By using the coefficient table of the coefficient m [dB], appropriate correction can be performed.
  • the correction processing unit 50 changes the subtraction ratio Amp1 according to the playback volume. Therefore, even if the user U increases the playback volume, only the sound image of the phantom center does not approach the user U. Thereby, the out-of-head localization process can be performed appropriately, and a sound field equivalent to the speaker sound field can be reproduced.
  • the subtraction ratio may be changed by user input. For example, when the user feels that the position of the sound image localized at the phantom center is close, the user performs an operation for increasing the subtraction ratio. In this way, an appropriate out-of-head localization process can be performed.
  • whether or not the correction processing unit 50 performs correction is determined according to the correlation between the stereo input signals SrcL and SrcR.
  • the coefficient m [dB] can be a target speaker characteristic (coefficient).
  • a coefficient m [dB] that is equal to the volume of the phantom sound image of the speaker is set from the relationship between the volume of the sound image localized at the phantom center of the out-of-head localization headphone described later and the volume of the sound image localized at the phantom center of the speaker. Can do.
  • the coefficient m [dB] is obtained from a coefficient table obtained by an experiment described below.
  • a center speaker (see FIG. 9) is arranged in front of the listener 1, and the volume of the sound image of the center speaker and the volume of the sound image of the phantom center generated by the stereo speaker are based on the volume of the sound image generated by the center speaker.
  • the volume of the sound image of the center speaker By comparing the volume of the sound image of the center speaker with the volume of the sound image of the phantom center generated by the stereo headphones and the stereo headphone, the volume of the sound image of the phantom center relatively generated by the stereo speaker and the stereo headphones and the head localization The volume of the sound image of the phantom center generated by the headphones was compared.
  • the sound pressure level at the ear when the volume of the sound image generated by the center speaker and the volume of the sound image of the phantom center generated by the stereo speaker are heard at the same level is obtained.
  • the sound pressure level at the ear when the volume of the sound image of the center speaker and the volume of the sound image of the phantom center generated by the stereo headphones and the out-of-head localization headphones are heard at the same level is obtained.
  • the sound pressure level, stereo headphones and out-of-head localization headphones that can be placed at the ears of the sound image volume of the phantom center generated by the stereo speaker are generated via the sound pressure levels at the ears of the sound image sound volume generated by the center speaker.
  • the sound pressure levels at the ears of the sound volume of the phantom center were compared.
  • the reproduction volume of the stereo speaker, stereo headphones, and out-of-head localization headphones is increased by 5 [dB] via the reference sound pressure level.
  • the sound pressure level of the sound image of the phantom center generated by the stereo speaker and how the sound pressure level of the sound image of the phantom center generated by the stereo headphones and out-of-head localization headphones changes with respect to the reference sound pressure level.
  • a graph of the plotted ear sound pressure level was obtained.
  • the measuring device 300 includes a headphone 45, a stereo speaker 5, a center speaker 6, and a processing device 301.
  • the processing device 301 is an arithmetic processing device including a memory, a processor, and the like, and specifically a personal computer or the like.
  • the processing device 301 performs processing according to a computer program stored in advance. For example, the processing device 301 outputs an experimental signal (for example, white noise) to the stereo speaker 5 and the headphones 45.
  • an experimental signal for example, white noise
  • the stereo speaker 5 has the same configuration as that shown in FIG. Further, the left speaker 5L and the right speaker 5R are arranged at an angle that makes the same spread angle on the horizontal plane when the front of the listener 1 is set to 0 °, and is further arranged at an equal distance from the listener 1. At this time, an arrangement having the same distance and the same angle as the speaker arrangement shown in FIG. 7 is preferable.
  • the center speaker 6 is disposed between the left speaker 5L and the right speaker 5R. That is, the center speaker 6 is arranged in front of the listener 1. Therefore, the left speaker 5L is disposed on the left side of the center speaker 6, and the right speaker 5R is disposed on the right side.
  • the listener 1 When outputting a signal from the headphones 45, the listener 1 wears the headphones 45. When outputting a signal from the stereo speaker 5 or the center speaker 6, the listener 1 removes the headphones 45.
  • the inventors first present white noise from the stereo speaker 6, stereo headphones, out-of-head localization headphones, and reference center speaker at the reference sound pressure level of 72 [dB] so as to have the same sound pressure level at the ear. Then, the gain of each output system was matched. Next, when the reference sound pressure level is changed by ⁇ 5 [dB], the volume at which the sound image localized at the phantom center can be heard at the same volume relative to the reference sound pressure level in the following (a) to (c). A graph was created by connecting lines with changes in the sound pressure level at the ears.
  • A Phantom center sound image generated by a stereo speaker (hereinafter referred to as a stereo speaker phantom sound image)
  • B Phantom center sound image generated by stereo headphones (hereinafter referred to as headphone-through phantom sound image)
  • C Sound image of phantom center of out-of-head localization headphones (hereinafter referred to as phantom sound image of out-of-head localization headphones)
  • the sound pressure level at the ears of the phantom sound images of the headphone through and the out-of-head localization headphones in a specific range shows the ears of the phantom sound image of the stereo speaker. It was found to be greater than the sound pressure level at. In other words, it was found that the binaural effect was higher when playing with headphones than with speakers.
  • the developer performs the above-described experiment in advance and calculates the coefficient from the sound pressure level graph.
  • a coefficient table calculated from the result of the experiment is used.
  • FIG. 10 and FIG. 11 are graphs in which the sound pressure level is evaluated by an auditory experiment.
  • FIG. 10 is a graph showing a result when an open type headphone is used as the headphone 45.
  • FIG. 11 is a graph showing the results when a sealed headphone is used as the headphone 45.
  • FIGS. 10 and 11 show the reference sound pressure levels when the reference sound pressure level is changed every 5 [dB] in the range of 62 [dB] to 97 [dB].
  • the sound pressure level at each ear when the sound pressure level at each phantom center is heard at the same volume in terms of hearing is shown by a line. 10 and 11, the horizontal axis indicates the reference sound pressure level [dB]. The vertical axis represents the sound pressure level [dB] at the ear of the sound image of each phantom center that can be heard to the same magnitude as the reference sound pressure level obtained from the sense of hearing.
  • the ear sound pressure level of the stereo speaker phantom sound image is 80 dB.
  • the volume of the sound image generated by the center speaker which is the reference sound pressure level
  • the sound pressure level at the phantom sound image ear of the stereo speaker is presented at 80 dB, it can be heard at the same volume.
  • the ear sound pressure level of the phantom sound image of the out-of-head localization headphones indicates 67 dB. This means that when the volume of the sound image generated by the center speaker at the reference sound pressure level is presented at 72 dB, (c) the sound pressure level at the phantom sound image ear of the out-of-head localization headphones is heard at the same volume as 67 dB. become.
  • the sound pressure level at the ear of the stereo speaker phantom sound image is (b) the headphone through phantom sound image and (c) the phantom sound image of the out-of-head localization headphone. It is about 10 to 12 [dB] higher than the sound pressure level at the ear. That is, (a) the sound pressure level at the ear of the phantom sound image of the stereo speaker is 10 to 12 [b] than the sound pressure level at the ear of the phantom sound image of (b) headphone through and (c) the phantom sound image of out-of-head localization headphones.
  • the sound pressure level at the ears of (a) the phantom sound image of the stereo speaker and (c) the phantom sound image of the out-of-head localization headphones is equal. That is, at the reference sound pressure level 92 [dB], the sound pressure level at the ears of (a) the phantom sound image of the stereo speaker and (c) the phantom sound image of the out-of-head localization headphones can be heard to the same degree in terms of hearing.
  • the sound pressure level is 92 [dB] or higher, the binaural effect of the headphones is not affected, and the volume of the sound image of the phantom center is not enhanced.
  • the slope of the graph is different between (a) the phantom sound image of the stereo speaker and (c) the phantom sound image of the out-of-head localization headphones. Therefore, it can be seen that (a) the phantom sound image of the stereo speaker and (c) the phantom sound image of the out-of-head localization headphones have different sound pressure level increases. More specifically, (a) the slope of the phantom sound image graph of the stereo speaker is smaller than (c) the slope of the phantom sound image graph of the out-of-head localization headphones.
  • FIG. 12 and FIG. 13 show the difference in the sound pressure level at the ears (hereinafter referred to as the sound pressure level difference Y).
  • the sound pressure level difference Y is calculated from (c) the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphone, and (a) the sound pressure level at the ear of the phantom sound image of the stereo speaker when the reference sound pressure level is the same.
  • Subtracted value. 12 shows the sound pressure level difference Y of the graph shown in FIG. 10 by a broken line
  • FIG. 13 shows the sound pressure level difference Y of the graph shown in FIG. 11 by a broken line.
  • the horizontal axis is the reference sound pressure level [dB]
  • the vertical axis is the sound pressure level difference Y.
  • the reference sound pressure level at which the sound pressure level difference Y starts to rise is defined as a threshold value S.
  • a reference sound pressure level at which the sound pressure level difference exceeds 0 [dB] is defined as a threshold value P.
  • the threshold value P is a value larger than the threshold value S. That is, (c) the reference sound pressure level at which the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphones is higher than the sound pressure level at the ear of the (a) stereo speaker phantom sound image is the threshold value P.
  • the threshold S is 77 [dB] and the threshold P is 92 [dB].
  • the threshold S is 72 [dB] and the threshold P is 87 [dB].
  • the threshold value S and the threshold value P indicate different values depending on the type of headphones such as an open type and a sealed type.
  • the threshold P is such that (c) the sound pressure level at the ear of the phantom center sound image of the out-of-head localization headphones is (a) the sound pressure level at the same level as the sound pressure level at the ear of the phantom center sound image of the stereo speaker.
  • the reproduction volume chVol is smaller than the threshold P, (c) the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphones is (a) lower than the sound pressure level at the ear of the phantom sound image of the stereo speaker.
  • the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphones is (a) higher than the sound pressure level at the ear of the phantom sound image of the stereo speaker.
  • FIG. 14 is a flowchart illustrating a method for setting the coefficient m [dB]. Note that the following processes may be performed by executing a computer program.
  • the processor of the processing device 301 executes the processing shown in FIG. 14 by executing a computer program. Of course, part or all of the processing may be performed by the user or the developer.
  • the processing device 301 calculates (c) the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphones and (a) the sound pressure level at the ear of the phantom sound image of the stereo speaker with respect to the reference sound pressure level ( S201).
  • These sound pressure level graphs are prepared in advance as a coefficient table by the developer conducting experiments in advance. In this embodiment, a coefficient table calculated from the experiment is used.
  • each sound pressure level for each type of headphones.
  • the adjustment range of the reference sound pressure level is not particularly limited.
  • the processing device 301 obtains a sound pressure level difference Y between (c) the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphones and (a) the sound pressure level at the ear of the phantom sound image of the stereo speaker (S202). . Then, the processing device 301 sets a threshold value S based on the sound pressure level difference Y (S203).
  • the threshold S is a reference sound pressure level at which the sound pressure level difference Y starts to increase.
  • the processing device 301 sets a threshold value P based on the sound pressure level difference Y (S204).
  • the threshold P is a reference sound pressure level at which the sound pressure level difference Y exceeds 0 [dB].
  • the maximum value that does not exceed 0 [dB] can be set as the threshold value P. That is, the maximum value of the reference sound pressure level can be set as the threshold value P.
  • the reference sound pressure level where the sound pressure level difference Y exceeds 0 [dB] in the range of the reference sound pressure level from 62 [dB] to 97 [dB] is 92 [dB]. That is, 92 [dB] can be set as the threshold value P.
  • the processing apparatus 301 produces
  • the coefficient table is a table in which the reproduction volume chVol (see FIG. 1) at the time of out-of-head localization processing is associated with the coefficient m [dB]. Accordingly, the reference sound pressure level on the horizontal axis in FIGS. 12 and 13 and the reproduction volume chVol during the out-of-head localization processing are replaced. That is, the coefficient table is set by setting the reference sound pressure level on the horizontal axis to the reproduction volume chVol acquired by the volume acquisition unit 61.
  • the value of the coefficient m [dB] in the coefficient table is indicated by a solid line.
  • the coefficient m [dB] is set as the sound pressure level difference Y at the threshold value S. That is, when the reproduction volume chVol is smaller than the threshold value S, the coefficient m [dB] is constant at the sound pressure level difference Y at the threshold value S.
  • the reproduction volume chVol is greater than or equal to the threshold value S and less than or equal to the threshold value P
  • the sound pressure level difference Y becomes the coefficient m [dB] as it is.
  • the coefficient m [dB] increases as the playback volume chVol increases.
  • the coefficient m [dB] becomes the maximum value.
  • the coefficient m [dB] is a fixed value less than 0 [dB].
  • the coefficient m [dB] is constant at a minimum value.
  • the coefficient m [dB] monotonously increases as the reproduction volume chVol increases.
  • the coefficient m [dB] is constant at the maximum value. Note that when the reproduction volume chVol is smaller than the threshold value S, the subtracted in-phase signal SrcIp is also small, so that the correction process need not be performed.
  • the coefficient table By obtaining the coefficient table in this way, it is possible to generate a correction signal that takes into account the volume difference between the actual headphones and the speaker. That is, the subtraction ratio Amp1 becomes an appropriate value according to the reproduction volume. Thereby, the in-phase signal can be appropriately subtracted from the stereo input signal. That is, it can correct
  • the processing device 301 sets the threshold value S and the threshold value P based on the sound pressure level difference Y. Further, when the reproduction volume chVol is in the range of the threshold value S or more and the threshold value P or less, the coefficient m [dB] increases monotonously according to the reproduction volume chVol. Thereby, since the component of the in-phase signal decreases as the playback volume increases, it is possible to appropriately reduce the influence of fluctuations in volume and the binaural effect of the headphones.
  • the threshold value P and the threshold value S differ depending on the type of headphones. Therefore, it is preferable to set a threshold value P and a threshold value S for each type of headphones and create a coefficient table. That is, an experiment is performed for each headphone model, and (a) the sound pressure level of the phantom sound image of the stereo speaker and (c) the phantom sound image of the out-of-head localization headphone are obtained. Then, based on the sound pressure level at each ear, the sound pressure level difference Y is obtained, and the threshold value S and the threshold value P are set.
  • the setting of the threshold value S and the threshold value P and part or all of the setting of the coefficient table may be performed by a user or a developer, or may be automatically performed by a computer program. Further, (b) the headphone through phantom sound image need not be implemented.
  • FIG. 15 is a flowchart illustrating a process for setting the coefficient m [dB] when the threshold value P is set by the method according to the modification.
  • the processing device 301 calculates (c) the sound pressure level at the ear of the phantom sound image of the out-of-head localization headphones and (a) the sound pressure level at the ear of the phantom sound image of the stereo speaker (S301).
  • the processing device 301 obtains a sound pressure level difference Y between (c) the phantom sound image of the out-of-head localization headphones and (a) the phantom sound image of the stereo speaker (S302).
  • the processing device 301 sets a threshold value S based on the sound pressure level difference Y (S303). Since the processing of S301 to S303 is the same as the processing of S201 to S203, the description thereof is omitted.
  • the processing device 301 obtains an approximate function Y ′ of the sound pressure level difference Y (S304).
  • the approximate function Y ′ is calculated from a range where the reference sound pressure level is S or more.
  • the approximate function Y ′ is calculated by linear approximation.
  • FIG. 16 shows the approximate function Y ′ in the case of the sound pressure level and the sound pressure level difference of the phantom sound image of the out-of-head localization headphones in the sealed headphones shown in FIGS. 11 and 13 by broken lines.
  • the approximate function Y ′ may be calculated by linear approximation or may be calculated by a polynomial of a second or higher order.
  • the approximate function Y ′ may be calculated by moving average. By approximation, an average coefficient m [dB] can be obtained.
  • the processing device 301 sets a threshold value P based on the approximate function Y ′ (S305).
  • a reference sound pressure level x value at which the value of the approximate function Y ′ is 0 [dB] is set as a threshold value P.
  • the threshold value P 86.2 [dB].
  • the processing device 301 generates a coefficient table based on the threshold value S, the threshold value P, and the approximate function Y ′ (S306).
  • FIG. 16 also shows the coefficient table.
  • the coefficient m [dB] is the sound pressure level difference Y at the threshold value S. That is, when the reproduction volume chVol is smaller than the threshold value S, the coefficient m [dB] is constant at the sound pressure level difference Y at the threshold value S.
  • the correction process may not be performed.
  • the coefficient m [dB] is the value of the approximate function Y ′.
  • the coefficient m [dB] increases as the playback volume chVol increases.
  • the coefficient m [dB] is fixed at the maximum value of the approximate function Y ′.
  • the threshold value P and the coefficient table are set, the same effect as in the first embodiment can be obtained. Even when the volume changes, sound image localization processing can be performed appropriately. That is, it is possible to suppress the enhancement of the sound image localized at the phantom center due to fluctuations in volume and the binaural effects of headphones.
  • Embodiment 2 As a coefficient table, a coefficient m [%] in which a ratio is directly specified as a percentage is set instead of a ratio coefficient [dB] converted from decibels. That is, the coefficient m [%] in which the direct ratio is designated as a percentage is associated with the reproduction volume chVol and set as a coefficient table. That is, the coefficient m [%] coincides with Amp1 in the equations (2) and (3). Furthermore, the coefficient m [%] is set according to the audibility of the user U when performing out-of-head localization playback.
  • the coefficient table setting process will be described with reference to FIG. FIG. 17 shows coefficient table setting processing.
  • the processing device 301 sets a threshold value S (S401).
  • the threshold value S that minimizes the control range is input from the audibility when the user U wears the headphones 45 and listens to the signal subjected to the out-of-head localization process.
  • the processing device 301 sets a threshold value P (S402).
  • the threshold value P that minimizes the control range is input from the sense of hearing when the user U wears the headphones 45 and listens to the signal subjected to the out-of-head localization process.
  • the threshold S can be 72 [dB] and the threshold P can be 87 [dB].
  • the threshold value S and the threshold value P are stored in a memory or the like.
  • the threshold value S and the threshold value P may be set according to user input.
  • the processing apparatus 301 produces
  • the coefficient table will be described with reference to FIG.
  • the coefficient m [%] in the coefficient table is set in three stages based on the threshold value S and the threshold value P. For example, in the reproduction volume chVol smaller than the threshold S, the coefficient m [%] is set to 0 [%]. For a playback volume chVol that is greater than or equal to the threshold S and less than the threshold P, the coefficient m [%] is 15 [%]. For the playback volume chVol that is equal to or higher than the threshold value P, the coefficient m [%] is set to 30 [%].
  • the coefficient table is set so that the coefficient m [%] increases stepwise as the reproduction volume chVol increases.
  • the value of the coefficient m [%] is not limited to three levels, and may be increased to four or more levels.
  • a plurality of coefficients m [%] may be set in the range between the threshold value S and the threshold value P.
  • the coefficient m [%] is set in a range larger than 0% and smaller than 100%.
  • the out-of-head localization processing method is the same as that in the first embodiment, and thus detailed description thereof is omitted.
  • the out-of-head localization process can be performed according to the flow shown in FIG.
  • a coefficient m [%] may be set instead of the coefficient m [dB].
  • S106 for subtracting the in-phase signal from the stereo reproduction signal the above equations (9) and (10) may be used instead of equations (6) and (7).
  • the coefficient m is set according to the reproduction volume chVol with reference to the coefficient table.
  • the user U sets the coefficient m according to the sense of hearing. For example, while the user U is listening to a stereo playback signal that has been subjected to out-of-head localization processing, the subtraction ratio of the in-phase component may be changed according to the sense of hearing.
  • the coefficient m [%] when the user U feels that the sound image of the vocal localized at the phantom center generated from the out-of-head localization headphones is close, input is performed to increase the coefficient [%]. For example, the user U performs user input by operating the touch panel. When the user input is accepted, the out-of-head localization processing apparatus 100 increases the coefficient m [%]. For example, when the user U feels that the phantom center sound image is close, an operation of increasing the coefficient m [%] is performed. On the other hand, when the user U feels that the phantom center sound image is close, an operation of decreasing the coefficient m [%] is performed. Also in the second modification, the coefficient m [%] can be increased or decreased in steps such as 0 [%], 15 [%], 30 [%], and the like.
  • the coefficient setting by user input may be combined with the coefficient setting according to the playback volume.
  • the out-of-head localization processing apparatus 100 performs out-of-head localization processing with a coefficient corresponding to the playback volume.
  • the user may perform an operation of changing the coefficient according to the audibility when the user listens to the reproduction signal subjected to the out-of-head localization process.
  • the coefficient m may be changed when the user performs an operation of adjusting the playback volume.
  • -6 [dB] may be set as the upper limit of the coefficient m [dB], and a value equal to or less than -6 [dB] may be set in the coefficient table.
  • the coefficient obtained from the isometric curve is an ideal value, and depending on the set value of the coefficient m, the left and right volume balance may be lost. You may adjust to a value smaller than an ideal value according to an actual music.
  • the algorithm for extracting the in-phase signal is merely an example, and is not limited to this.
  • an in-phase signal may be extracted using an adaptive algorithm.
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROM (Read Only Memory), CD-R, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • the program may be supplied to the computer by various types of temporary computer readable media.
  • Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • This application is applicable to an out-of-head low level processing apparatus that localizes a sound image by headphones or earphones.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本実施の形態にかかる頭外定位処理装置は、ステレオ再生信号の同相信号を算出する加算器(51)と、前記同相信号を減算するための減算比率を設定する比率設定部(52)と、減算比率に応じてステレオ再生信号から同相信号を減算することで、補正信号を生成する減算器(53、54)と、空間音響伝達特性を用いて、補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成する畳み込み演算部(11、12、21、22)と、フィルタを用いて、畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するフィルタ部(41、42)と、出力信号をユーザに向けて出力するヘッドホン(45)と、を備えたものである。

Description

頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム
 本発明は、頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラムに関する。
 音像定位技術として、両耳ヘッドホンを用いて受聴者の頭外に音像を定位させる頭外定位技術がある(特許文献1)。特許文献1では、逆ヘッドホンレスポンスと、空間レスポンスを畳み込んだ結果からなる音像定位フィルタを用いている。空間レスポンスは、音源(スピーカ)から耳元までの空間伝達特性(頭部伝達関数HRTF)の測定により得られる。逆ヘッドホンレスポンスは、ヘッドホンから耳元乃至鼓膜までの特性(外耳道伝達関数ECTF)をキャンセルする逆フィルタである。
特開平5-252598号公報
医歯薬出版・Harvey Dillon著 補聴器ハンドブック コロナ社・日本音響学会 聴覚と音響心理
 また、健聴者にとって、音の大きさ(ラウドネス)は片耳で聞いているときよりも両耳で聞いているときの方が大きくなる、ということが知られている。これは、いわゆる「両耳効果」と呼ばれる。また、両耳効果により、両耳によるラウドネス加算は、およそ5~6[dB]変化し、さらに、10[dB]変化という報告もある(非特許文献1)。
 なお、ステレオ再生のように2個のスピーカから音が与えられる場合は、一方の音に遅延などがあって2か所にある実音源として聴こえる場合も、また2音源の音によって合成された虚音像として聴こえる場合も、音の大きさの加算に関しては単耳の現象と全く同じと考えてさしつかえない。(非特許文献2)
 左右に配置した2つのスピーカから合成された虚音像はもちろん、ヘッドホンやイヤホンで提示される頭外定位受聴装置の音像についても、両耳効果が発生する。特にヘッドホンの方がスピーカよりも再生ユニットから耳までの距離が近いため、音量が大きく聴こえやすくなる。また、発明者らの実験において、ステレオスピーカが生成するファントムセンターの音像とステレオヘッドホンが生成するファントムセンターの音像、頭外定位ヘッドホンのファントム音像について、各々の耳元に与える音圧レベルを一定にした時の音の大きさを比較した。その結果、耳元に与える音圧レベルが特定の範囲内のときは、ステレオヘッドホンと頭外定位ヘッドホンが生成するファントム音像の音量が、ステレオスピーカが生成するファントム音像の音量よりも大きいことが分かった。つまり、スピーカで再生するよりヘッドホンで再生した方が、音量が大きく聴こえ、両耳効果が高くなることが分かった。
 そのため、頭外定位ヘッドホンが生成するファントム音像は、ヘッドホンで再生することによって、模擬するスピーカ音場よりも両耳効果でさらに強調される。具体的には、ボーカル等のファントムセンターに定位する音像の定位が近くに感じやすくなるという問題点がある。さらに、スピーカとヘッドホンの再生音量を上げていくと、ある音量を超えると、ステレオヘッドホンや頭外定位ヘッドホンが生成するファントム音像の音量とステレオスピーカが生成するファントム音像の音量が逆転してしまい、ステレオヘッドホンや頭外定位ヘッドホンで再生した方がボーカル等のファントムセンターに定位する音像の音量が大きく聴こえてしまうという問題点がある。
 本実施形態は上記の点に鑑みなされたもので、適切に頭外定位処理することができる頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラムを提供することを目的とする。
 本実施形態にかかる頭外定位処理装置は、ステレオ再生信号の同相信号を算出する同相信号算出部と、前記同相信号を減算するための減算比率を設定する比率設定部と、前記減算比率に応じて前記ステレオ再生信号から同相信号を減算することで、補正信号を生成する減算部と、空間音響伝達特性を用いて、前記補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成する畳み込み演算部と、フィルタを用いて、前記畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するフィルタ部と、ヘッドホン又はイヤホンを有し、前記出力信号をユーザに向けて出力する出力部と、を備えたものである。
 本実施形態にかかる頭外定位処理方法は、ステレオ再生信号の同相信号を算出するステップと、前記同相信号を減算するための減算比率を設定するステップと、前記減算比率に応じて、前記ステレオ再生信号から同相信号を減算することで、補正信号を生成するステップと、空間音響伝達特性を用いて、前記補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成するステップと、フィルタを用いて、前記畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するステップと、ヘッドホン又はイヤホンを有し、前記出力信号をユーザに向けて出力するステップと、を備えたものである。
 本実施形態にかかる頭外定位処理プログラムは、ステレオ再生信号の同相信号を算出するステップと、前記同相信号を減算するための減算比率を設定するステップと、前記減算比率に応じて、前記ステレオ再生信号から同相信号を減算することで、補正信号を生成するステップと、空間音響伝達特性を用いて、前記補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成するステップと、フィルタを用いて、前記畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するステップと、ヘッドホン又はイヤホンを有し、前記出力信号をユーザに向けて出力するステップと、を、コンピュータに実行させるものである。
 本実施形態によれば、適切に頭外定位処理することができる頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラムを提供することができる。
本実施の形態に係る頭外定位処理装置を示すブロック図である。 入力信号SrcLの波形を示す図である。 入力信号SrcRの波形を示す図である。 同相信号SrcIpの波形を示す図である。 補正信号SrcL’の波形を示す図である。 補正信号SrcR’の波形を示す図である。 伝達特性を測定するための構成を示す図である。 補正処理を示すフローチャートである。 ステレオスピーカ、ステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの耳元における音圧レベルを比較するための聴感実験を行う構成を示す図である。 開放型ヘッドホンにおけるファントムセンターの音像の音量の耳元での音圧レベルを聴感実験で評価したグラフである。 密閉型ヘッドホンにおけるファントムセンターの音像の音量の耳元での音圧レベルを聴感実験で評価したグラフである。 図10のグラフの頭外定位ヘッドホンのファントム音像とステレオスピーカのファントム音像の音圧レベル差を示すグラフである。 図11のグラフの頭外定位ヘッドホンのファントム音像とステレオスピーカのファントム音像の音圧レベル差を示すグラフである。 係数テーブルを設定する設定処理を示すフローチャートである。 変形例にかかる係数mテーブルの設定処理を示すフローチャートである。 変形例における近似関数と係数を示すグラフである。 実施の形態2にかかる係数テーブルの設定処理を示す図である。 実施の形態2における係数テーブルを説明するためのグラフである。
 本実施の形態にかかる頭外定位処理の概要について説明する。本実施形態にかかる頭外定位処理は、個人の空間音響伝達特性(空間音響伝達関数ともいう)と外耳道伝達特性(外耳道伝達関数ともいう)を用いて頭外定位処理を行うものである。本実施形態では、スピーカから聴取者の耳までの空間音響伝達特性、及びヘッドホンを装着した状態での外耳道伝達特性の逆特性を用いて頭外定位処理を実現している。
 本実施の形態では、ヘッドホン装着状態でのヘッドホンスピーカユニットから外耳道入口までの特性である外耳道伝達特性が利用されている。そして、外耳道伝達特性の逆特性(外耳道補正関数ともいう)を用いて畳み込み処理を行うことで、外耳道伝達特性をキャンセルする。
 本実施の形態にかかる頭外定位処理装置は、パーソナルコンピュータ、スマートホン、タブレットPCなどの情報処理装置を有しており、プロセッサ等の処理手段、メモリやハードディスクなどの記憶手段、液晶モニタ等の表示手段、タッチパネル、ボタン、キーボード、マウスなどの入力手段、ヘッドホン又はイヤホンを有する出力手段を備えている。以下の実施形態では、頭外定位処理装置が、スマートホンであるものとして説明を行う。より具体的には、スマートホンのプロセッサは、頭外定位処理を行うためのアプリケーションプログラム(アプリケーション)を実行することで、頭外定位処理が実施される。このような、アプリケーションプログラムは、インターネット等のネットワークを介して入手可能である。
実施の形態1.
(頭外定位処理装置の構成)
 本実施の形態にかかる頭外定位処理装置100を図1に示す。図1は、頭外定位処理装置100のブロック図である。頭外定位処理装置100は、ヘッドホン45を装着するユーザUに対して音場を再生する。そのため、頭外定位処理装置100は、LchとRchのステレオ入力信号SrcL、SrcRについて、頭外定位処理を行う。LchとRchのステレオ入力信号SrcL、SrcRは、CD(Compact Disc)プレーヤなどから出力されるアナログのオーディオ再生信号または、mp3(MPEG Audio Layer-3)等のデジタルオーディオデータである。なお、頭外定位処理装置100は、物理的に単一な装置に限られるものではなく、一部の処理が異なる装置で行われてもよい。例えば、一部の処理がパソコンやスマートホンなどにより行われ、残りの処理がヘッドホン45に内蔵されたDSP(Digital Signal Processor)などにより行われてもよい。
 頭外定位処理装置100は、演算処理部110と、ヘッドホン45とを備えている。演算処理部110は、補正処理部50と、頭外定位処理部10と、フィルタ部41、42と、D/A(Digital to Analog)コンバータ43、44と、音量取得部61と、を備えている。
 演算処理部110は、メモリに格納されたプログラムを実行することで、補正処理部50、頭外定位処理部10、フィルタ部41、42、音量取得部61における処理を行う。演算処理部110は、スマートホンなどであり、頭外定位処理用のアプリケーションを実行する。なお、D/Aコンバータ43、44は、演算処理部110やヘッドホン45に内蔵されていてもよい。また、演算処理部110と、ヘッドホン45との接続は、有線接続であってもよく、Bluetooth(登録商標)等の無線接続であってもよい。
 補正処理部50は、加算器51と、比率設定部52と、減算器53、54と、相関判定部56と、を備えている。加算器51は、ステレオ入力信号SrcL、SrcRに基づいて、ステレオ入力信号SrcL、SrcRの同相信号SrcIpを算出する同相信号算出部である。例えば、加算器51は、ステレオ入力信号SrcL、SrcRを加算して半分にすることで、同相信号SrcIpを生成する。
 同相信号は、以下の式(1)で得られる。
SrcIp=(SrcL+SrcR)/2  ・・・(1)
 図2~図4にステレオ入力信号SrcL、SrcR、及び同相信号SrcIpの一例を示す。図2は、Lchのステレオ入力信号SrcLを示す波形図であり、図3は、Rchステレオ入力信号SrcRを示す波形図である。図4は、同相信号SrcIpを示す波形図である。図2~図4において、横軸が時間、縦軸が振幅となっている。
 補正処理部50は、ステレオ入力信号SrcL、SrcRの再生音量に基づいて、ステレオ入力信号SrcL、SrcRの同相信号SrcIpの比率を減算し調整することで、ステレオ入力信号SrcL、SrcRを補正する。そのため、比率設定部52は、同相信号SrcIpを減算するための比率(減算比率Amp1と称する)を設定する。減算器53は、設定された減算比率Amp1で、同相信号SrcIpをステレオ入力信号SrcLから減算して、Lchの補正信号SrcL’を生成する。同様に、減算器54は、設定された減算比率Amp1で、同相信号SrcIpをRchのステレオ入力信号SrcRから減算して、Rchの補正信号SrcR’を生成する。
 補正信号SrcL’、SrcR’は以下の式(2)、式(3)で得られる。なお、Amp1は減算比率であり、0%~100%の値をとることができる
SrcL’=SrcL-SrcIp*Amp1  ・・・(2)
SrcR’=SrcR-SrcIp*Amp1  ・・・(3)
 図5、図6に補正信号SrcL’、SrcR’の一例を示す。図5は、Lchの補正信号SrcL’を示す波形図である。図6は、Rchの補正信号SrcR’を示す波形図である。ここでは、減算比率Amp1は50%となっている。このように、減算器53は、減算比率に応じて、ステレオ入力信号SrcL、SrcRから同相信号SrcIpを減算する。
 比率設定部52は減算比率Amp1を同相信号SrcIpに乗じて、減算器53、54に出力している。比率設定部52は、減算比率Amp1を設定するための係数mを格納している。係数mは、再生音量chVolに応じて設定されている。具体的には、比率設定部52は、係数mと再生音量chVolとが対応付けられている係数テーブルを格納している。比率設定部52は、後述する音量取得部61で取得された再生音量chVolに応じて、係数mを変更する。これにより、再生音量chVolに応じて、適切な減算比率Amp1を設定することができる。
 また、ステレオ入力信号SrcL、SrcRに同相成分がどれくらい含まれているかを判定するため、ステレオ入力信号SrcL、SrcRは、相関判定部56に入力される。相関判定部56は、Lchのステレオ入力信号SrcLとRchのステレオ入力信号SrcRとの相関を判定する。例えば、相関判定部56は、Lchのステレオ入力信号SrcLとRchのステレオ入力信号SrcRとの相互相関関数を求める。そして、相関判定部56は、相互相関関数に基づいて、相関が高いか否かを判定する。例えば、相関判定部56は、相互相関関数と相関閾値との比較結果に応じて、判定を行う。
 一般的に、相互相関関数が1(100%)は2つの信号が一致した状態つまり相関がある状態、相互相関関数が0は相関が無い無相関の状態、相互相関関数が-1(-100%)は2つの信号のいずれかの正負を逆転した信号が一致した状態つまり逆相関の状態とされる。ここでは、相互相関関数に相関閾値を設けて、相互相関関数と相関閾値を比較している。相互相関関数が相関閾値以上の場合を相関が高い、相関閾値よりも小さい場合を相関が低い、と定義する。例えば、相関閾値は80%とすることができる。また相関閾値は、必ず正方向の値に設定する。
 相関が低い場合、補正処理部50による補正処理を行わずに、ステレオ入力信号SrcL、SrcRをそのまま頭外定位処理部10に出力する。すなわち、補正処理部50は、ステレオ入力信号SrcL、SrcRから同相信号を減算せずに、出力する。したがって、補正信号SrcL’、SrcR’とステレオ入力信号SrcL、SrcRとが一致する。換言すると、式(2)、式(3)のAmp1が0となる。
 相関が高い場合、補正処理部50は、ステレオ入力信号SrcL、SrcRから同相信号SrcIpに減算比率Amp1を乗算した信号を減算して、補正信号SrcL’、SrcR’として出力する。すなわち、補正処理部50は、式(2)、式(3)に基づいて、補正信号SrcL’、SrcR’を算出する。これにより、ステレオ入力信号SrcL、SrcRから生成される同相成分の比率が調整されたステレオの補正信号SrcL’、SrcR’が生成される。
 このように、相関が所定の条件を満たす場合、減算器53、54が減算を行う。そして、畳み込み演算部11、12、21、22は、ステレオ入力信号SrcL、SrcRから同相信号SrcIpが減算された補正信号SrcL’、SrcR’に対して畳み込み処理を行う。一方、相関が所定の条件を満たさない場合、減算器53、54が減算を行わずに、畳み込み処理部11、12、21、22がステレオ再生信号SrcL、SrcRを補正信号SrcL’、SrcR’として、畳み込み処理を行う。すなわち、畳み込み処理部11、12、21、22は、ステレオ再生信号SrcL、SrcRに対して畳み込み処理を行う。相関としては、例えば相互相関関数を用いることができる。そして、補正処理部50は、相互相関関数と相関閾値との比較結果に応じて、減算処理を行うか否か判定する。
 頭外定位処理部10は、畳み込み演算部11~12、畳み込み演算部21~22、増幅器13、14、増幅器23、24、及び加算器26、27を備えている。畳み込み演算部11~12、21~22は、空間音響伝達特性を用いた畳み込み処理を行う。頭外定位処理部10には、補正処理部50からの補正信号SrcL’、SrcR’が入力される。
 頭外定位処理部10には、空間音響伝達特性が設定されている。頭外定位処理部10は、各chの補正信号SrcL’、SrcR’に対し、空間音響伝達特性を畳み込む。空間音響伝達特性はユーザU本人の頭部や耳介で測定した頭部伝達関数HRTFでもよいし、ダミーヘッドまたは第三者の頭部伝達関数であってもよい。これらの伝達特性は、その場で測定してもよいし、予め用意してもよい。
 空間音響伝達特性は、スピーカから耳元までの4つの伝達特性で、SpLから左耳までの伝達特性Hls、SpLから右耳までの伝達特性Hlo、SpRから左耳までの伝達特性Hro、SpRから右耳までの伝達特性Hrsを有している。そして、畳み込み演算部11は、Lchの補正信号SrcL’に対して伝達特性Hlsを畳み込む。畳み込み演算部11は、増幅器13を介して畳み込み演算信号を加算器26に出力する。畳み込み演算部21は、Rchの補正信号SrcR’に対して伝達特性Hroを畳み込む。畳み込み演算部21は、増幅器23を介して、畳み込み演算信号を加算器26に出力する。加算器26は2つの畳み込み演算信号を加算して、フィルタ部41に出力する。
 畳み込み演算部12は、Lchの補正信号SrcL’に対して伝達特性Hloを畳み込む。畳み込み演算部12は、畳み込み演算信号を、増幅器14を介して、加算器27に出力する。畳み込み演算部22は、Rchの補正信号SrcR’に対して伝達特性Hrsを畳み込む。畳み込み演算部22は、畳み込み演算信号を、増幅器24を介して、加算器27に出力する。加算器27は2つの畳み込み演算信号を加算して、フィルタ部42に出力する。
 なお、増幅器13、14、23、24は、所定の増幅率Amp2で畳み込み演算信号を増幅している。また、増幅器13、14、23、24の増幅率Amp2は同じとなっていてもよく、異なっていてもよい。
 また、音量取得部61は、増幅器13、14、23、24の増幅率Amp2に応じて、再生中の音量(または再生中の音圧レベル)chVolを取得する。なお、音量chVolを取得する方法は特に限定されるものではない。ユーザが操作したヘッドホン45またはスマートホンの音量(Vol)によって、音量chVolを取得してもよい。あるいは、後述する出力信号outL、outRに基づいて、音量chVolを取得してもよい。音量取得部61は、音量chVolを比率設定部52に出力する。
 図7を参照して、4つの伝達特性Hls、Hlo、Hro、Hrsを説明する。図7は、4つの伝達特性Hls、Hlo、Hro、Hrsを測定するためのフィルタ生成装置200を示す模式図である。フィルタ生成装置200は、ステレオスピーカ5、及びステレオマイク2を備えている。さらに、フィルタ生成装置200は、処理装置201を備えている。処理装置201は、収音信号をメモリなどに記憶する。処理装置201は、メモリ、及びプロセッサなどを備える演算処理装置であり、具体的には、パーソナルコンピュータなどである。処理装置201は予め格納されたコンピュータプログラムに従って処理を行う。
 ステレオスピーカ5は、左スピーカ5Lと右スピーカ5Rを備えている。例えば、受聴者1の前方に左スピーカ5Lと右スピーカ5Rが設置されている。左スピーカ5Lと右スピーカ5Rは、スピーカから耳元までの空間音響伝達特性を測定するため、測定信号を出力する。例えば、測定信号はインパルス信号やTSP(Time Streched Pule)信号等でもよい。
 ステレオマイク2は、左のマイク2Lと右のマイク2Rを有している。左のマイク2Lは、受聴者1の左耳9Lに設置され、右のマイク2Rは、受聴者1の右耳9Rに設置されている。具体的には、左耳9L、右耳9Rの外耳道入口乃至鼓膜位置の任意の位置にマイク2L、2Rを設置することが好ましい。なお、マイク2L、2Rは、外耳道入口から鼓膜までの間ならばどこに配置してもよい。マイク2L、2Rは、ステレオスピーカ5から出力された測定信号を収音して、収音信号を取得する。
 受聴者1は、頭外定位処理装置100のユーザUと同じ人であってもよく、異なる人であってもよい。受聴者1は、人でもよく、ダミーヘッドでもよい。すなわち、本実施形態において、受聴者1は人だけでなく、ダミーヘッドを含む概念である。
 上記のように、左右のスピーカ5L、5Rから出力された測定信号をマイク2L、2Rで収音することで空間伝達特性を測定する。処理装置201は、測定した空間伝達特性をメモリに記憶する。これにより、左スピーカ5Lから左マイク2Lまでの間の伝達特性Hls、左スピーカ5Lから右マイク2Rまでの間の伝達特性Hlo、右スピーカ5Lから左マイク2Lまでの間の伝達特性Hro、右スピーカ5Rから右マイク2Rまでの間の伝達特性Hrsが測定される。すなわち、左スピーカ5Lから出力された測定信号を左マイク2Lが収音することで、伝達特性Hlsが取得される。左スピーカ5Lから出力された測定信号を右マイク2Rが収音することで、伝達特性Hloが取得される。右スピーカ5Rから出力された測定信号を左マイク2Lが収音することで、伝達特性Hroが取得される。右スピーカ5Rから出力された測定信号を右マイク2Rが収音することで、伝達特性Hrsが取得される。
 そして、処理装置201は、収音信号に基づいて、左右のスピーカ5L、5Rから左右のマイク2L、2Rまでの伝達特性Hls~Hrsに応じたフィルタを生成する。具体的には、処理装置201は、伝達特性Hls~Hrsを所定のフィルタ長で切り出して、頭外定位処理部10の畳み込み演算に用いられるフィルタとして生成する。図1で示したように、頭外定位処理装置100が、左右のスピーカ5L、5Rと左右のマイク2L、2Rとの間の伝達特性Hls~Hrsを用いて頭外定位処理を行う。すなわち、補正信号SrcL’、SrcR’を伝達特性Hls~Hrsに畳み込むことにより、頭外定位処理を行う。
 図1の説明に戻る。フィルタ部41、42にはヘッドホン45からマイク2L,2Rまでの外耳道伝達特性(ヘッドホン特性ともいう)をキャンセルする逆フィルタLinv、Rinvが設定されている。そして、加算器26、27で加算された畳み込み演算信号に逆フィルタLinv、Rinvをそれぞれ畳み込む。フィルタ部41で加算器26からのLchの畳み込み演算信号に対して、逆フィルタLinvを畳み込む。同様に、フィルタ部42は加算器27からのRchの畳み込み演算信号に対して逆フィルタRinvを畳み込む。逆フィルタLinv、Rinvは、ヘッドホン45を装着した場合に、ヘッドホン45の出力ユニットからマイクまでの特性をキャンセルする。すなわち、外耳道入口近傍にマイクを配置したとき、ユーザ各人の外耳道入口とヘッドホンの再生ユニット間、あるいは鼓膜とヘッドホンの再生ユニット間等の伝達特性をキャンセルする。なお、マイクは、外耳道入口から鼓膜までの間ならばどこに配置してもよい。逆フィルタLinv、Rinvは、ユーザU本人の特性をその場で測定した結果から算出してもよいし、ダミーヘッドまたは第三者等の任意の外耳を用いて測定したヘッドホン特性から算出した逆フィルタを予め用意してもよい。
 逆フィルタを生成するため、左ユニット45Lは、受聴者1の左耳9Lに向けて測定信号を出力する。右ユニット45Rは、受聴者1の右耳9Rに向けて測定信号を出力する。
 図7の左のマイク2Lは、受聴者1の左耳9Lに設置され、右のマイク2Rは、受聴者1の右耳9Rに設置されている。具体的には、左耳9L、右耳9Rの外耳道入口乃至鼓膜位置の任意の位置にマイク2L、2Rを設置することが好ましい。なお、マイクは、外耳道入口から鼓膜までの間ならばどこに配置してもよい。マイク2L、2Rは、ヘッドホン45等から出力された測定信号を収音して、収音信号を取得する。すなわち、受聴者1がヘッドホン45、及びステレオマイク2を装着した状態で測定が行われる。例えば、測定信号はインパルス信号やTSP(Time Streched Pule)信号等でもよい。そして、収音信号に基づいて、ヘッドホン特性の逆特性を算出し、逆フィルタが生成される。
 フィルタ部41は、フィルタ処理したLchの出力信号outLをD/Aコンバータ43に出力する。D/Aコンバータ43は、出力信号outLをD/A変換して、ヘッドホン45の左ユニット45Lに出力する。
 フィルタ部42は、フィルタ処理したRchの出力信号outRをD/Aコンバータ44に出力する。D/Aコンバータ44は、出力信号outRをD/A変換して、ヘッドホン45の右ユニット45Rに出力する。
 ユーザUは、ヘッドホン45を装着している。ヘッドホン45は、Lchの出力信号とRchの出力信号をユーザUに向けて出力する。これにより、ユーザUの頭外に定位された音像を再生することができる。
 このように、本実施形態では、補正処理部50でステレオ入力信号SrcL、SrcRから同相信号SrcIpを減算している。これにより、ヘッドホンで再生することで音量の変動や両耳効果によってより強められた同相成分を抑制し、スピーカ音場と同じになるように、同相信号SrcIpを適切な音量に補正した頭外定位受聴を行うことができる。よって、適切に音像定位処理することが可能となる。例えば、頭外定位ヘッドホンが生成するファントムセンターに定位するボーカル等の音像の定位が音量の変動や両耳効果によって強調されるのを抑制することができる。よって、頭外定位ヘッドホンが生成するファントムセンターに定位する音像が近く感じやすくなることを防ぐことができる。
 さらに、補正処理部50において、減算比率Amp1が可変となっている。比率設定部52が、同相信号の減算比率Amp1を再生音量chVolに応じて変更する。すなわち、再生音量chVolが変わると、比率設定部52が減算比率Amp1の値を変更する。このようにすることで、再生音量chVolが変わった場合でも、再生音量chVolに合わせて適切に音像定位処理することができる。すなわち、再生音量chVolが変わった場合でも、両耳効果によってファントムセンターに定位する音像が強調されるのを抑制することができる。
(補正処理)
 次に、補正処理部50での補正処理について、図8を用いて説明する。図8は、補正処理部50での補正処理を示すフローチャートである。図8に示す処理は、図1の補正処理部50において実施される。具体的には、頭外定位処理装置100のプロセッサがコンピュータプログラムを実行することで、図8の処理を実施する。
 ここでは、減算比率Amp1を求めるための係数として係数m[dB]が設定されている。そして、係数m[dB]は、再生音量chVolに応じた係数テーブルとして、比率設定部52に格納されている。なお、係数m[dB]は、ステレオ入力信号SrcL、SrcRを何dB下げるかを指定する値である。
 まず、補正処理部50がステレオ入力信号SrcL、SrcRから1フレーム分を取得する(S101)。次に、音量取得部61が再生音量chVolを取得する(S102)。
 そして、音量取得部61は再生音量chVolが後述する制御範囲の範囲内か否かを判定する(S103)。再生音量chVolが制御範囲外である場合(S103のNO)、補正処理部50が補正を行わずに、処理を終了する。すなわち、補正処理部50は、ステレオ入力信号SrcL、SrcRがそのまま出力される。
 再生音量chVolが制御範囲内である場合(S103のYES)、比率設定部52は、係数テーブルを参照して、係数m[dB]を設定する(S104)。比率設定部52には、上記のように、音量取得部61から再生音量chVolが入力されている。係数テーブルでは、再生音量chVolと係数m[dB]が対応付けられている。比率設定部52は、再生音量chVolに応じて、適切な減算比率Amp1を設定することができる。比率設定部52は、予め係数テーブルを格納している。なお、係数テーブルの作成については後述する。
 そして、相関判定部56がステレオ入力信号SrcL、SrcRの相関判定を1フレームずつ行う(S105)。具体的には、相関判定部56は、ステレオ入力信号SrcL、SrcRの相互相関関数が相関閾値(例えば80%)以上であるか否かを判定する。
 相互相関関数φ12は、以下の式(4)で与えられる。
Figure JPOXMLDOC01-appb-M000001
 g1(x)は1フレーム分のステレオ入力信号SrcLであり、g2(x)は、1フレーム分のステレオ入力信号SrcRである。式(4)では相互相関関数は自己相関が1になるように正規化が行われている。
 相互相関関数が相関閾値よりも小さい場合(S105のNO)、補正を行わずに、処理を終了する。ステレオ入力信号SrcL、SrcRの相関が低い、すなわちステレオ入力信号SrcL、SrcRの同相信号SrcIpに同相成分が少ない場合、抽出できる同相信号も少なくなるため補正処理を行わなくてもよい。
 なお、再生する楽曲や音楽ジャンルに応じて相関閾値を変えてもよい。例えば、クラシックの相関閾値は90%、JAZZの相関閾値は80%、JPOPのようにファントムセンターにボーカルが多く入っているような楽曲の相関閾値は65%等としてもよい。
 相互相関関数が相関閾値よりも大きい場合(S105のYES)、減算器53、54が減算比率Amp1に応じて、ステレオ入力信号SrcL、SrcRから同相信号SrcIpを減算する(S106)。すなわち、式(2)、式(3)に基づいて、補正信号SrcL’、SrcR’が算出される。
 そして、ステレオ入力信号SrcL、SrcRの再生中は、S101~S106の処理を繰り返し行う。すなわち、フレーム毎にS101~S106の処理が実施される。これにより、再生音量chVolが変わった場合、1フレーム毎に音量の変化を検出するため、ステレオ入力信号SrcL、SrcRの再生中でも、再生音量chVolに合わせた係数mに更新される。
 ここで、係数m[dB]の単位はデシベル[dB]となっている。そのため、ステレオ入力信号SrcL、SrcRに、係数m[dB]に対する減算比率Amp1は以下の式(5)で求めることができる。
m[dB]=20*log10(Amp1)
Amp1=10(m/20)    ・・・(5)
 例えば、m=-6[dB]の場合、Amp1=10^(-6/20)=0.5倍=50%となる。補正信号SrcL’、SrcR’は以下の式(6)、(7)で与えられる。
SrcL’=SrcL-SrcIp*10(m/20)  ・・・(6)
SrcR’=SrcR-SrcIp*10(m/20)  ・・・(7)
 減算比率Amp1は0%より大きく、100%より小さくなる範囲で与えられる。つまり、係数m[dB]については、0<10(m/20)<100の範囲で与えられる。例えば、Amp1=0%は、補正処理なしとなる。m=0を指定すると、Amp1=100%となるため、係数mの適用範囲は、以下の式(8)により定義することができる。
-∞<m<0 ・・・(8)
 このように、補正処理部50は、ステレオ入力信号SrcL、SrcRから同相信号SrcIpに減算比率Amp1を乗算した信号を減算することで、補正信号SrcL’、SrcR’を生成している。そして、補正信号SrcL’、SrcR’に基づいて、頭外定位処理部10、フィルタ部41、フィルタ部42が処理を行う。このようにすることで、適切に頭外定位処理することができ、音量の変動や両耳効果によってファントムセンターに定位する音像が強調されることを軽減することができる。係数m[dB]の係数テーブルを用いることで、適切な補正が可能となる。
 さらに、本実施の形態では、補正処理部50が、再生音量に応じて、減算比率Amp1を変えている。よって、ユーザUが再生音量を上げても、ファントムセンターの音像だけがユーザUに近づくことがなくなる。これにより、適切に頭外定位処理することができ、スピーカ音場と同等の音場を再現することができる。減算比率は、ユーザ入力により変更されてもよい。例えば、ユーザがファントムセンターに定位する音像の位置が近いと感じた場合、ユーザが減算比率を高くするための操作を行う。このようにすることで、適切な頭外定位処理を行うことができる。
 さらに、ステレオ入力信号SrcL、SrcRの相関に応じて、補正処理部50が補正を行うか否かを決定している。ステレオ入力信号SrcL、SrcRの相関が低い場合、同相成分がほとんど含まれず補正による効果が少ないため、補正処理を行わない。すなわち、SrcL’=SrcL、SrcR’=SrcRとなる。このようにすることで、余分な補正処理を省略し、演算の処理量を軽くすることができる。
 また、係数m[dB]は目標とするスピーカの特性(係数)とすることができる。後述する頭外定位ヘッドホンのファントムセンターに定位する音像の音量とスピーカのファントムセンターに定位する音像の音量の関係から、スピーカのファントム音像の音量と等しくなるような係数m[dB]を設定することができる。係数m[dB]は以下に述べる実験により得られた係数テーブルから求められる。
 ここで、係数テーブルを求めるために行われた実験について説明する。ステレオスピーカが生成するファントムセンターの音像の音量とステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの音像の音量について、再生方法の違いにより両耳効果の大きさが変化するかどうかを検証するための実験を行った。
 しかし、ステレオヘッドホンまたは頭外定位ヘッドホンが生成するファントムセンターの音像の音量とステレオスピーカが生成するファントムセンターの音像の音量をそのまま比較することは難しい。また、ファントムセンターの音量は感覚量であるため、比較するためには物理指標に置き換えて評価する必要があった。
 そこで、受聴者1の正面にセンタースピーカ(図9参照)を配置し、センタースピーカが生成する音像の音量を基準として、センタースピーカの音像の音量とステレオスピーカが生成するファントムセンターの音像の音量、センタースピーカの音像の音量とステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの音像の音量を比較することで、相対的にステレオスピーカが生成するファントムセンターの音像の音量とステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの音像の音量を比較した。
 具体的には、センタースピーカが生成する音像の音量とステレオスピーカが生成するファントムセンターの音像の音量が同じ大きさに聴こえた時の耳元における音圧レベルを求める。次に、センタースピーカの音像の音量とステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの音像の音量が同じ大きさに聴こえた時の耳元における音圧レベルを求める。これによって、センタースピーカが生成する音像の音量の耳元における音圧レベルを介して、ステレオスピーカが生成するファントムセンターの音像の音量の耳元に置ける音圧レベルとステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの音像の音量の耳元における音圧レベルを比較した。
 センタースピーカが生成する音像の音量の耳元における音圧レベルを基準音圧レベルとすると、基準音圧レベルを介して、ステレオスピーカ、ステレオヘッドホン、頭外定位ヘッドホンの再生音量を5[dB]ずつ上げた時に、ステレオスピーカが生成するファントムセンターの音像の音圧レベルとステレオヘッドホン及び頭外定位ヘッドホンが生成するファントムセンターの音像の音圧レベルが基準音圧レベルに対してどのように変化するかをプロットした耳元音圧レベルのグラフを求めた。
 実験では、図9に示す測定装置300を用いている。測定装置300は、ヘッドホン45と、ステレオスピーカ5と、センタースピーカ6と、処理装置301とを備えている。処理装置301は、メモリ、及びプロセッサなどを備える演算処理装置であり、具体的には、パーソナルコンピュータなどである。処理装置301は予め格納されたコンピュータプログラムに従って処理を行う。例えば、処理装置301は、ステレオスピーカ5、及びヘッドホン45に実験用の信号(例えば、ホワイトノイズ)を出力する。
 ステレオスピーカ5は、図7と同様の構成となっている。また、左スピーカ5Lと右スピーカ5Rは、受聴者1の正面を0°とした時に水平面上において同じ見開き角になる角度に配置し、さらに受聴者1から等距離に配置する。このとき、図7に示したスピーカ配置と同じ距離、同じ角度となる配置が好ましい。
 センタースピーカ6は、左スピーカ5Lと右スピーカ5Rとの中間に配置されている。すなわち、センタースピーカ6は、受聴者1の前方正面に配置されている。したがって、センタースピーカ6の左側には、左スピーカ5Lが配置され、右側に右スピーカ5Rが配置されている。
 ヘッドホン45から信号を出力する場合、受聴者1は、ヘッドホン45を装着する。また、ステレオスピーカ5、又はセンタースピーカ6から信号を出力する場合、受聴者1は、ヘッドホン45を取り外す。
 発明者らは、まず基準音圧レベルが72[dB]において、ステレオスピーカ6、ステレオヘッドホン、頭外定位ヘッドホンと、基準となるセンタースピーカからホワイトノイズを耳元で同じ音圧レベルになるように提示して、各出力系のゲインを合わせた。次に、基準音圧レベルを±5[dB]ずつ変化させた時に、以下の(a)~(c)において、ファントムセンターに定位する音像が基準音圧レベルに対して同じ音量に聴こえる音量を聴感実験で求め、耳元の音圧レベルが変化する様子を線で結びグラフを生成した。
(a)ステレオスピーカが生成するファントムセンターの音像(以下ステレオスピーカのファントム音像とする)
(b)ステレオヘッドホンが生成するファントムセンターの音像(以下ヘッドホンスルーのファントム音像とする)
(c)頭外定位ヘッドホンのファントムセンターの音像(以下頭外定位ヘッドホンのファントム音像とする)
 (a)~(c)の耳元における音圧レベルのグラフを比較したところ、ある特定の範囲においてヘッドホンスルー及び頭外定位ヘッドホンのファントム音像の耳元における音圧レベルが、ステレオスピーカのファントム音像の耳元における音圧レベルより大きくなることが分かった。つまり、スピーカよりヘッドホンで再生した方が、両耳効果が高くなることが分かった。
 本開示において、開発者は予め前記のような実験を行い、音圧レベルのグラフから係数を算出する。本開示では、前記実験の結果から算出した係数テーブルを用いる。
 前記実験の結果から(a)ステレオスピーカのファントム音像、(b)ヘッドホンスルーのファントム音像、及び(c)頭外定位ヘッドホンのファントム音像において、基準音圧レベルを介して比較したファントム音像の耳元での音圧レベルを聴感実験で評価したグラフを図10、図11に示す。図10は、ヘッドホン45として開放型ヘッドホンを用いた場合の結果を示すグラフである。図11は、ヘッドホン45として、密閉型ヘッドホンを用いた場合の結果を示すグラフである。
 また、図10、図11は、62[dB]から97[dB]の範囲で、5[dB]毎に基準音圧レベルを変化させた時に(a)~(c)が基準音圧レベルを介して各ファントムセンターの音圧レベルが聴感上で同じ音量に聞こえた時の耳元における音圧レベルを線で結んだグラフを示している。図10、図11において、横軸は、基準音圧レベル[dB]を示す。縦軸は、聴感から求めた基準音圧レベルと同じ大きさに聴こえる各ファントムセンターの音像の耳元における音圧レベル[dB]を示す。
 例えば、図10の基準音圧レベル72dBにおいて、(a)ステレオスピーカのファントム音像の耳元音圧レベルは80dBを示している。これは、基準音圧レベルであるセンタースピーカが生成する音像の音量を72dBで提示したとき、(a)ステレオスピーカのファントム音像耳元における音圧レベルを80dBで提示すると同じ音量に聴こえるということになる。
 また、図10の基準音圧レベル72dBにおいて、(c)頭外定位ヘッドホンのファントム音像の耳元音圧レベルは67dBを示している。これは、基準音圧レベルであるセンタースピーカが生成する音像の音量を72dBで提示したとき、(c)頭外定位ヘッドホンのファントム音像耳元における音圧レベルを67dBで提示すると同じ音量に聴こえるということになる。
 これらのことから、同じ基準音圧レベル72dBを提示したときに、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像では、音の提示する方法によって耳元における音圧レベルが異なることが分かる。さらに、(c)頭外定位ヘッドホンのファントム音像は(a)ステレオスピーカのファントム音像よりも少ない音圧レベルで同じ音量に聴こえていることが分かる。
 図10の基準音圧レベルが62[dB]において、(a)ステレオスピーカのファントム音像の耳元における音圧レベルは、(b)ヘッドホンスルーのファントム音像と(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルよりも10~12[dB]程度高くなっている。すなわち、(a)ステレオスピーカのファントム音像の耳元における音圧レベルは、(b)ヘッドホンスルーのファントム音像、及び(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルよりも10~12[dB]高いにもかかわらず、聴感上同程度に聴こえていることになる。したがって、ヘッドホン45を用いた場合、ステレオスピーカ5を用いた場合よりも両耳効果が高くなる。すなわち、横軸に示す基準音圧レベルが同じ大きさの場合の3つの音圧レベルのグラフを比較すると、スピーカとの音圧レベルの差が大きいほど、両耳効果が大きく働いているということができる。
 また、図10の基準音圧レベル92[dB]において、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルが等しくなる。すなわち、基準音圧レベル92[dB]において、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルは聴感上同程度に聴こえるということになり、基準音圧レベル92[dB]以上においてはヘッドホンによる両耳効果は影響せず、ファントムセンターの音像の音量は強められていないということになる。
 反対に、図10の基準音圧レベルが97[dB]において、(a)ステレオスピーカのファントム音像の耳元における音圧レベルは、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルよりも小さくなる。したがって、基準音圧レベル97[dB]において、ステレオスピーカ及び頭外定位ヘッドホンのファントムセンターの音像の耳元における音圧レベルが逆転している。すなわち、基準音圧レベルが92[dB]を超える97[dB]では、ヘッドホンで提示したファントムセンターの音量は実際のステレオスピーカよりも大きな音で聴こえていることになる。
 さらに、図10では、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像では、グラフの傾きが異なっている。よって、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像では音圧レベルの上がり方が異なっていることが分かる。具体的には、(a)ステレオスピーカのファントム音像のグラフの傾きが(c)頭外定位ヘッドホンのファントム音像のグラフの傾きよりも小さくなっている。すなわち、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像では、基準音量を上げた時の音圧レベルの上がり方がそれぞれ異なるということになる。よって、(a)ステレオスピーカのファントム音像と(c)頭外定位ヘッドホンのファントム音像では音圧レベルの上がり方をそれぞれに設定する必要があるということになる。また、(b)と(c)でもグラフの傾きが異なるため、(a)と(c)の時と同様のことが言える。
 ここで、(a)~(c)の聴感によるファントム音像の音圧レベル差を説明するため、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルと(a)ステレオスピーカのファントム音像の耳元における音圧レベルの差分(以下、音圧レベル差Yと称する)を図12、図13に示す。なお、音圧レベル差Yは、基準音圧レベルが同じ場合において、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルから(a)ステレオスピーカのファントム音像の耳元における音圧レベルを引いた値である。図12は、図10に示すグラフの音圧レベル差Yを破線で示し、図13は、図11に示すグラフの音圧レベル差Yを破線で示す。横軸は基準音圧レベル[dB]であり、縦軸は音圧レベル差Yである。
 図12、図13に示すように、音圧レベル差Yが上昇し始める基準音圧レベルを閾値Sとする。音圧レベル差が0[dB]を超える基準音圧レベルを閾値Pとする。閾値Pは、閾値Sよりも大きい値である。すなわち、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルが(a)ステレオスピーカのファントム音像の耳元における音圧レベルよりも大きくなる基準音圧レベルが閾値Pとなる。図12では閾値Sが77[dB]、閾値Pが92[dB]となる。図12では閾値Sが72[dB]、閾値Pが87[dB]となる。閾値Sと閾値Pは、開放型や密閉型などヘッドホンのタイプに応じて異なる値を示している。
 閾値Pは、(c)頭外定位ヘッドホンのファントムセンター音像の耳元における音圧レベルが(a)ステレオスピーカのファントムセンター音像の耳元における音圧レベルと同程度の音圧レベルとなる。閾値Pよりも再生音量chVolが小さい場合、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルは(a)ステレオスピーカのファントム音像の耳元における音圧レベルよりも小さくなる。一方、閾値Pよりも再生音量chVolが大きい場合、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルは(a)ステレオスピーカのファントム音像の耳元における音圧レベルよりも大きくなる。
 閾値P、及び閾値Sに基づいて、係数m[dB]が設定される。ここで、係数m[dB]の設定方法について、図14を用いて説明する。図14は、係数m[dB]の設定方法を示すフローチャートである。なお、以下の各処理はコンピュータプログラムを実行することで行われてもよい。例えば、処理装置301のプロセッサが、コンピュータプログラムを実行することで、図14に示す処理を実施する。もちろん、一部又は全部の処理について、ユーザまたは開発者が実施してもよい。
 まず、処理装置301は、基準音圧レベルに対して、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルと(a)ステレオスピーカのファントム音像の耳元における音圧レベルを算出する(S201)。これらの音圧レベルのグラフは、開発者が予め実験を行い、係数テーブルとして用意しておく。本実施例では、前記実験から算出した係数テーブルを用いる。
 なお、各々の音圧レベルのグラフは、ヘッドホンの機種毎に用意することが好ましい。また、基準音圧レベルの調整範囲は特に限定されるものではない。
 次に、処理装置301は、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルと(a)ステレオスピーカのファントム音像の耳元における音圧レベルの音圧レベル差Yを求める(S202)。そして、処理装置301は、音圧レベル差Yに基づいて、閾値Sを設定する(S203)。閾値Sは、音圧レベル差Yが上昇し始める基準音圧レベルとなる。
 次に、処理装置301は、音圧レベル差Yに基づいて、閾値Pを設定する(S204)。閾値Pは、音圧レベル差Yが0[dB]を越える基準音圧レベルである。音圧レベル差Yが0[dB]を超えない場合、0[dB]を越えない最大値を閾値Pとして設定することができる。すなわち、基準音圧レベルの最大値を閾値Pとすることができる。例えば、図13において、基準音圧レベルが62[dB]~97[dB]の範囲で音圧レベル差Yが0[dB]を超える基準音圧レベルは92[dB]となる。すなわち、92[dB]を閾値Pとすることができる。
 そして、処理装置301は、閾値P、及び閾値Sに基づいて、係数m[dB]の係数テーブルを生成する(S205)。係数テーブルは、頭外定位処理時の再生音量chVol(図1参照)と係数m[dB]とが対応付けられたテーブルである。したがって、図12、図13の横軸である基準音圧レベルと頭外定位処理時の再生音量chVolが置き換えられる。すなわち、横軸の基準音圧レベルを音量取得部61が取得した再生音量chVolとすることで、係数テーブルが設定される。
 図12、図13において、係数テーブルでの係数m[dB]の値を実線で示している。再生音量chVolが閾値Sより小さい場合、係数m[dB]を閾値Sでの音圧レベル差Yとする。すなわち、再生音量chVolが閾値Sより小さい場合、係数m[dB]は閾値Sでの音圧レベル差Yで一定となる。再生音量chVolが閾値S以上、閾値P以下の場合、音圧レベル差Yがそのまま係数m[dB]となる。例えば、再生音量chVolが大きくなるにつれて、係数m[dB]が大きくなっていく。再生音量chVolが閾値Pよりも大きい場合、係数m[dB]を最大値となる。なお、係数m[dB]が閾値Pよりも大きい場合、係数m[dB]、は0[dB]未満の固定値となっている。
 したがって、頭外定位処理時において、再生音量chVolが閾値Sよりも小さい場合、係数m[dB]は最小値で一定となる。再生音量chVolが閾値S以上、閾値P以下の場合、再生音量chVolの増加とともに、係数m[dB]が単調増加する。再生音量chVolが閾値Pよりも大きい場合、係数m[dB]が最大値で一定となる。なお、再生音量chVolが閾値Sよりも小さい場合、減算される同相信号SrcIpも小さくなるため、補正処理を行わなくてもよい。
 このように係数テーブルを求めることで、実際のヘッドホンとスピーカとの音量差を加味した補正信号を生成することができる。すなわち、再生音量に応じて、減算比率Amp1が適切な値となる。これにより、ステレオ入力信号から同相信号を適切に減算することができる。すなわち、再生音量に応じて変化する音量差に応じて、適切に補正することができる。
 ヘッドホン音像の同相成分の減算比率を調整することで、ヘッドホンの両耳効果によってファントムセンターに定位する音像が強調されることを軽減することができる。よって、ユーザUが音量を変えてもファントムセンターの音像の位置だけ近付くことがなく、スピーカ音場と同じになるような音場を再現することができる。ヘッドホンの両耳効果によって変化するファントムセンターの音像の音圧レベルは、出力する再生音量chVolの大きさによって非線形的に変化する。
 このように、処理装置301は、音圧レベル差Yに基づいて、閾値S、及び閾値Pを設定している。また、再生音量chVolが閾値S以上、閾値P以下の範囲内にある場合、再生音量chVolに応じて、係数m[dB]は、単調増加する。これにより、再生音量が大きくなるほど、同相信号の成分が小さくなるため、音量の変動やヘッドホンの両耳効果による影響を適切に軽減することができる。
 また、図12、図13に示すように、ヘッドホンのタイプに応じて、閾値P及び閾値Sが異なる。よって、ヘッドホンの機種毎に閾値P及び閾値Sを設定して、係数テーブルを作成することが好ましい。すなわち、ヘッドホン機種毎に実験を行い、(a)ステレオスピーカのファントム音像、及び(c)頭外定位ヘッドホンのファントム音像の音圧レベルを求める。そして、各々の耳元における音圧レベルに基づいて、音圧レベル差Yを求めて、閾値S、及び閾値Pが設定される。なお、閾値S、及び閾値Pの設定、及び係数テーブルの設定の一部または全部は、ユーザまたは開発者が行ってもよく、コンピュータプログラムにより自動で行われてもよい。また、(b)ヘッドホンスルーのファントム音像については実施しなくてもよい。
(係数mの設定の変形例1)
 上記の説明では、音圧レベル差Yが0[dB]となる基準音圧レベルを閾値Pとしたたが、変形例では、異なる方法で閾値Pを設定している。具体的には、音圧レベル差Yの近似関数Y’によって、閾値Pを設定している。図15は、変形例にかかる方法で閾値Pを設定した場合の、係数m[dB]を設定するための処理を示すフローチャートである。
 なお、頭外定位処理装置の基本的構成、及び処理については、上記と同様であるため、詳細な説明を省略する。(a)ステレオスピーカのファントム音像、及び(c)頭外定位ヘッドホンのファントム音像についても、上記と同様であるため、詳細な説明を省略する。
 まず、処理装置301は、(c)頭外定位ヘッドホンのファントム音像の耳元における音圧レベルと(a)ステレオスピーカのファントム音像の耳元における音圧レベルを算出する(S301)。次に、処理装置301は、(c)頭外定位ヘッドホンのファントム音像と(a)ステレオスピーカのファントム音像の音圧レベル差Yを求める(S302)。そして、処理装置301は、音圧レベル差Yに基づいて、閾値Sを設定する(S303)。S301~S303の処理は、S201~S203の処理と同様であるため、説明を省略する。
 次に、処理装置301が音圧レベル差Yの近似関数Y’を求める(S304)。近似関数Y’は、基準音圧レベルがS以上の範囲から算出される。近似関数Y’は線形近似により算出される。図16に、図11、図13に示された密閉ヘッドホンにおける頭外定位ヘッドホンのファントム音像の音圧レベル、音圧レベル差の場合の近似関数Y’を破線で示す。図16では、Y’=x-86.2の線形近似で近似している。
 なお、近似関数Y’は線形近似により算出されていてもよく、2次以上の多項式により算出されていてもよい。あるいは、移動平均により、近似関数Y’が算出されていてもよい。近似することで、平均的な係数m[dB]を求めることができる。
 処理装置301が、近似関数Y’に基づいて、閾値Pを設定する(S305)。そして、近似関数Y’の値が0[dB]となる基準音圧レベルxの値を閾値Pとする。図16に示すグラフでは、x=86.2[dB]でY’=0となるため、閾値P=86.2[dB]となる。
 そして、処理装置301が、閾値S、閾値P、及び近似関数Y’に基づいて、係数テーブルを生成する(S306)。図16には、係数テーブルが合わせて示されている。再生音量chVolが閾値Sより小さい場合、係数m[dB]が閾値Sでの音圧レベル差Yとなる。すなわち、再生音量chVolが閾値Sより小さい場合、係数m[dB]は閾値Sでの音圧レベル差Yで一定となる。あるいは、閾値Sより小さい場合、補正処理をしないようにしてもよい。
 再生音量chVolが閾値S以上、閾値P以下の場合、係数m[dB]が近似関数Y’の値となる。例えば、再生音量chVolが大きくなるにつれて、係数m[dB]が大きくなっていく。再生音量chVolが閾値Pよりも大きい場合、係数m[dB]が近似関数Y’の最大値で固定となる。
 このように、閾値P、及び係数テーブルを設定したとしても、実施の形態1と同様の効果を得ることができる。音量が変わった場合でも、適切に音像定位処理することができる。すなわち、音量の変動やヘッドホンの両耳効果によってファントムセンターに定位する音像が強調されるのを抑制することができる。
実施の形態2.
 実施形態2では、係数テーブルとして、デシベルから換算した比率の係数[dB]ではなく、直接比率を%指定した係数m[%]が設定されている。すなわち、再生音量chVolに対して、直接比率を%指定した係数m[%]が対応付けられて、係数テーブルとして設定されている。すなわち、係数m[%]が式(2)、(3)のAmp1に一致する。さらに、係数m[%]は、頭外定位再生を行った場合、ユーザUの聴感に応じて設定されている。
 図17を用いて、係数テーブルの設定処理について説明する。図17は、係数テーブルの設定処理を示す。まず、処理装置301が閾値Sを設定する(S401)。ここでは、ユーザUがヘッドホン45を装着して頭外定位処理された信号を受聴したときの聴感から、制御範囲の最小となる閾値Sを入力する。
 次に、処理装置301が閾値Pを設定する(S402)。ここでは、S401の処理と同様に、ユーザUがヘッドホン45を装着して頭外定位処理された信号を受聴したときの聴感から、制御範囲の最小となる閾値Pを入力する。例えば、閾値Sは72[dB]、閾値Pを87[dB]とすることができる。そして、閾値S、及び閾値Pは、メモリなどに記憶される。閾値S、及び閾値Pは、ユーザ入力に応じて設定されてもよい。
 そして、処理装置301は、閾値S、及び閾値Pに基づいて、係数テーブルを生成する(S403)。ここで、図18を用いて、係数テーブルについて説明する。係数テーブルの係数m[%]は、閾値S、及び閾値Pに基づいて、3段階に設定されている。例えば、閾値Sよりも小さい再生音量chVolでは、係数m[%]を0[%]としている。閾値S以上、閾値P未満の再生音量chVolでは、係数m[%]を15[%]としている。閾値P以上の再生音量chVolでは、係数m[%]を30[%]としている。
 このように、再生音量chVolの増加に応じて、係数m[%]が段階的に増加するように係数テーブルが設定されている。もちろん、係数m[%]の値は3段階に限らず、4段階以上に増加してもよい。閾値S、及び閾値Pの間に範囲において、係数m[%]が複数設定されていてもよい。係数m[%]は0%より大きく、100%よりも小さい範囲で設定される。
 なお、Amp1=係数m/100[%]を含む係数テーブルを用いた場合、補正信号は、式(6)、式(7)の代わりに、以下の式(9)、式(10)に基づいて算出される。
SrcL’=SrcL-SrcIp*m/100  ・・・(9)
SrcR’=SrcR-SrcIp*m/100  ・・・(10)
 本実施の形態において、頭外定位処理方法については、実施の形態1と同様であるため、詳細な説明を省略する。例えば、図8に示したフローにしたがって頭外定位処理を行うことができる。そして、係数を設定するS104において、係数m[dB]ではなく、係数m[%]を設定すればよい。また、ステレオ再生信号から同相信号を減算するS106において、式(6)、式(7)の代わりに、上記の式(9)、式(10)を用いればよい。
変形例2.
 実施の形態2では係数テーブルを参照して、再生音量chVolに応じた係数mを設定したが、変形例2では、ユーザUが聴感に応じて、係数mを設定している。例えば、ユーザUが頭外定位処理されたステレオ再生信号を受聴中において、聴感に応じて同相成分の減算比率を変えてもよい。
 例えば、ユーザUが頭外定位ヘッドホンから生成されたファントムセンターに定位するボーカルの音像が近いと感じた場合、係数[%]を大きくするための入力を行う。例えば、ユーザUがタッチパネルを操作することでユーザ入力を実施する。そして、ユーザ入力が受け付けられた場合に、頭外定位処理装置100は係数m[%]を大きくする。例えば、ファントムセンター音像が近いとユーザUが感じた場合、係数m[%]を大きくする操作を行う。反対に、ファントムセンター音像が近いとユーザUが感じた場合、係数m[%]を小さくする操作を行う。変形例2においても、係数m[%]が0[%]、15[%]、30[%]等と段階的に増減するようにすることができる。
 さらに、ユーザ入力による係数の設定と、再生音量に応じた係数の設定を組み合わせてもよい。例えば、再生音量に応じた係数で頭外定位処理装置100が頭外定位処理を行う。ユーザが頭外定位処理された再生信号を受聴した時の聴感に応じて、ユーザが係数を変更する操作を行ってもよい。さらに、ユーザが再生音量を調整する操作を行った場合に、係数mを変更するようにしてもよい。
 なお、係数m[dB]が-6[dB](つまり、m[%]=50%)を超えると、左右のバランスが崩れた聴感となることがある。そのため、-6[dB]を係数m[dB]の上限として、係数テーブルに-6[dB]以下の値を設定してもよい。
 等感曲線から求めた係数はあくまで理想値であり、係数mの設定値次第では左右の音量のバランスが崩れることがある。実際の楽曲に合わせて、理想値よりも小さな値に調整する等してもよい。同相信号を抽出するアルゴリズムはあくまで一例であり、この限りでない。例えば、適応アルゴリズムを用いて同相信号を抽出してもよい。
 上記の頭外定位処理、及び測定処理のうちの一部又は全部は、コンピュータプログラムによって実行されてもよい。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記実施の形態に限られたものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
 この出願は、2017年2月20日に出願された日本出願特願2017-29296を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本願は、ヘッドホン又はイヤホンによる音像を頭外に定位する頭外低位処理装置に適用可能である。
 U ユーザ
 1 受聴者
 2L 左マイク
 2R 右マイク
 5L 左スピーカ
 5R 右スピーカ
 9L 左耳
 9R 右耳
 10 頭外定位処理部
 11 畳み込み演算部
 12 畳み込み演算部
 13 増幅器
 14 増幅器
 21 畳み込み演算部
 22 畳み込み演算部
 23 増幅器
 24 増幅器
 26 加算器
 27 加算器
 41 フィルタ部
 42 フィルタ部
 43 D/Aコンバータ
 44 D/Aコンバータ
 45 ヘッドホン
 50 補正処理部
 51 加算器
 52 比率設定部
 53 減算器
 54 減算器
 56 相関判定部
 61 音量取得部
 100 頭外定位処理装置
 110 演算処理部
 200 フィルタ生成装置
 201 処理装置
 300 測定装置
 301 処理装置

Claims (9)

  1.  ステレオ再生信号の同相信号を算出する同相信号算出部と、
     前記同相信号を減算するための減算比率を設定する比率設定部と、
     前記減算比率に応じて前記ステレオ再生信号から同相信号を減算することで、補正信号を生成する減算部と、
     空間音響伝達特性を用いて、前記補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成する畳み込み演算部と、
     フィルタを用いて、前記畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するフィルタ部と、
     ヘッドホン又はイヤホンを有し、前記出力信号をユーザに向けて出力する出力部と、を備えた頭外定位処理装置。
  2.  前記比率設定部が、再生音量に応じて、前記減算比率を変更する請求項1に記載の頭外定位処理装置。
  3.  前記再生音量が所定の範囲内にある場合、前記再生音量の増加に応じて、前記減算比率が単調増加する請求項2に記載の頭外定位処理装置。
  4.  前記再生音量の増加に応じて、前記減算比率が段階的に増加する請求項2に記載の頭外定位処理装置。
  5.  再生音量が低い場合、前記減算部による減算を行わず、前記畳み込み処理部が前記ステレオ再生信号を前記補正信号として、畳み込み処理を行う請求項2~4のいずれか1項に記載の頭外定位処理装置。
  6.  前記比率設定部が、ユーザ入力に応じて、前記減算比率を変更する請求項1~5のいずれか1項に記載の頭外定位処理装置。
  7.  前記ステレオ再生信号の相関が所定の条件を満たす場合、前記減算部が減算を行い、
     前記ステレオ再生信号の相関が所定の条件を満たさない場合、前記減算部が減算を行わず、前記畳み込み処理部が前記ステレオ再生信号を前記補正信号として、畳み込み処理を行う請求項1~6のいずれか1項に記載の頭外定位処理装置。
  8.  ステレオ再生信号の同相信号を算出するステップと、
     前記同相信号を減算するための減算比率を設定するステップと、
     前記減算比率に応じて、前記ステレオ再生信号から同相信号を減算することで、補正信号を生成するステップと、
     空間音響伝達特性を用いて、前記補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成するステップと、
     フィルタを用いて、前記畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するステップと、
     ヘッドホン又はイヤホンを有し、前記出力信号をユーザに向けて出力するステップと、を備えた頭外定位処理方法。
  9.  ステレオ再生信号の同相信号を算出するステップと、
     前記同相信号を減算するための減算比率を設定するステップと、
     前記減算比率に応じて、前記ステレオ再生信号から同相信号を減算することで、補正信号を生成するステップと、
     空間音響伝達特性を用いて、前記補正信号に対して畳み込み処理を行うことで、畳み込み演算信号を生成するステップと、
     フィルタを用いて、前記畳み込み演算信号に対してフィルタ処理を行うことで、出力信号を生成するステップと、
     ヘッドホン又はイヤホンを有し、前記出力信号をユーザに向けて出力するステップと、を、
     コンピュータに実行させる頭外定位処理プログラム。
PCT/JP2018/000382 2017-02-20 2018-01-10 頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム WO2018150766A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP18754345.9A EP3585077A4 (en) 2017-02-20 2018-01-10 OFFHEAD LOCATION PROCESSING DEVICE, METHOD AND PROGRAM
CN201880012200.5A CN110313188B (zh) 2017-02-20 2018-01-10 头外定位处理装置、头外定位处理方法以及存储介质
US16/545,909 US10779107B2 (en) 2017-02-20 2019-08-20 Out-of-head localization device, out-of-head localization method, and out-of-head localization program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017029296A JP6866679B2 (ja) 2017-02-20 2017-02-20 頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム
JP2017-029296 2017-02-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/545,909 Continuation US10779107B2 (en) 2017-02-20 2019-08-20 Out-of-head localization device, out-of-head localization method, and out-of-head localization program

Publications (1)

Publication Number Publication Date
WO2018150766A1 true WO2018150766A1 (ja) 2018-08-23

Family

ID=63169789

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/000382 WO2018150766A1 (ja) 2017-02-20 2018-01-10 頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム

Country Status (5)

Country Link
US (1) US10779107B2 (ja)
EP (1) EP3585077A4 (ja)
JP (1) JP6866679B2 (ja)
CN (1) CN110313188B (ja)
WO (1) WO2018150766A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020045109A1 (ja) * 2018-08-29 2020-03-05 ソニー株式会社 信号処理装置、信号処理方法、及び、プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3588987A4 (en) * 2017-02-24 2020-01-01 JVC KENWOOD Corporation FILTER GENERATION DEVICE, FILTER GENERATION METHOD AND PROGRAM
WO2022085488A1 (ja) * 2020-10-23 2022-04-28 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05252598A (ja) 1992-03-06 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 頭外定位ヘッドホン受聴装置
JPH07123498A (ja) * 1993-08-31 1995-05-12 Victor Co Of Japan Ltd ヘッドホン再生システム
JP2008294953A (ja) * 2007-05-28 2008-12-04 Victor Co Of Japan Ltd 音量制御装置及びコンピュータプログラム
JP2012120133A (ja) * 2010-12-03 2012-06-21 Fujitsu Ten Ltd 相関低減方法、音声信号変換装置および音響再生装置
JP2012169781A (ja) * 2011-02-10 2012-09-06 Sony Corp 音声処理装置および方法、並びにプログラム
JP2017028526A (ja) * 2015-07-23 2017-02-02 株式会社Jvcケンウッド 頭外定位処理装置、頭外定位処理方法、プログラム
JP2017029296A (ja) 2015-07-30 2017-02-09 株式会社大一商会 遊技機

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240189B1 (en) * 1994-06-08 2001-05-29 Bose Corporation Generating a common bass signal
JP3577798B2 (ja) * 1995-08-31 2004-10-13 ソニー株式会社 ヘッドホン装置
FI118370B (fi) * 2002-11-22 2007-10-15 Nokia Corp Stereolaajennusverkon ulostulon ekvalisointi
US20070110249A1 (en) 2003-12-24 2007-05-17 Masaru Kimura Method of acoustic signal reproduction
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
JP4509686B2 (ja) * 2004-07-29 2010-07-21 新日本無線株式会社 音響信号処理方法および装置
JP2006094275A (ja) * 2004-09-27 2006-04-06 Nintendo Co Ltd ステレオ音拡大処理プログラムおよびステレオ音拡大装置
JP4946305B2 (ja) * 2006-09-22 2012-06-06 ソニー株式会社 音響再生システム、音響再生装置および音響再生方法
US8306106B2 (en) * 2010-04-27 2012-11-06 Equiphon, Inc. Multi-edge pulse width modulator with non-stationary residue assignment
EP2719197A2 (en) * 2011-06-13 2014-04-16 Shakeel Naksh Bandi P Pyarejan SYED System for producing 3 dimensional digital stereo surround sound natural 360 degrees (3d dssr n-360)
WO2013120101A1 (en) * 2012-02-10 2013-08-15 Transtector Systems, Inc. Reduced let through voltage transient protection or suppression circuit
US9398391B2 (en) * 2012-05-29 2016-07-19 Creative Technology Ltd Stereo widening over arbitrarily-configured loudspeakers
KR20150012633A (ko) * 2013-07-25 2015-02-04 현대모비스 주식회사 서라운드 효과음 생성 장치
KR102231755B1 (ko) * 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05252598A (ja) 1992-03-06 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 頭外定位ヘッドホン受聴装置
JPH07123498A (ja) * 1993-08-31 1995-05-12 Victor Co Of Japan Ltd ヘッドホン再生システム
JP2008294953A (ja) * 2007-05-28 2008-12-04 Victor Co Of Japan Ltd 音量制御装置及びコンピュータプログラム
JP2012120133A (ja) * 2010-12-03 2012-06-21 Fujitsu Ten Ltd 相関低減方法、音声信号変換装置および音響再生装置
JP2012169781A (ja) * 2011-02-10 2012-09-06 Sony Corp 音声処理装置および方法、並びにプログラム
JP2017028526A (ja) * 2015-07-23 2017-02-02 株式会社Jvcケンウッド 頭外定位処理装置、頭外定位処理方法、プログラム
JP2017029296A (ja) 2015-07-30 2017-02-09 株式会社大一商会 遊技機

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HARVEY DILLON: "Auditory Sense and Psychoacoustics", CORONA PUBLISHING CO., LTD. AND THE ACOUSTICAL SOCIETY OF JAPAN
See also references of EP3585077A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020045109A1 (ja) * 2018-08-29 2020-03-05 ソニー株式会社 信号処理装置、信号処理方法、及び、プログラム
US11388538B2 (en) 2018-08-29 2022-07-12 Sony Corporation Signal processing device, signal processing method, and program for stabilizing localization of a sound image in a center direction

Also Published As

Publication number Publication date
JP6866679B2 (ja) 2021-04-28
EP3585077A1 (en) 2019-12-25
EP3585077A4 (en) 2020-02-19
CN110313188A (zh) 2019-10-08
US20190373400A1 (en) 2019-12-05
CN110313188B (zh) 2021-07-06
US10779107B2 (en) 2020-09-15
JP2018137549A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
US10264387B2 (en) Out-of-head localization processing apparatus and out-of-head localization processing method
JP6790654B2 (ja) フィルタ生成装置、フィルタ生成方法、及びプログラム
US10779107B2 (en) Out-of-head localization device, out-of-head localization method, and out-of-head localization program
JP2017028525A (ja) 頭外定位処理装置、頭外定位処理方法、及びプログラム
US10687144B2 (en) Filter generation device and filter generation method
US20230045207A1 (en) Processing device and processing method
CN113412630B (zh) 处理装置、处理方法、再现方法和程序
JP6805879B2 (ja) フィルタ生成装置、フィルタ生成方法、及びプログラム
US20230114777A1 (en) Filter generation device and filter generation method
US20230040821A1 (en) Processing device and processing method
US11228837B2 (en) Processing device, processing method, reproduction method, and program
US20240080618A1 (en) Out-of-head localization processing device, out-of-head localization processing method, and computer-readable medium
JP2023047707A (ja) フィルタ生成装置、及びフィルタ生成方法
JP2023047706A (ja) フィルタ生成装置、及びフィルタ生成方法
JP2023024040A (ja) 処理装置、及び処理方法
JP2024001928A (ja) 再生制御方法、及びプログラム
JP2017175442A (ja) 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
JP2023024038A (ja) 処理装置、及び処理方法
JP2024125727A (ja) クラスタリング装置、及びクラスタリング方法
JP2024097515A (ja) フィルタ生成装置、フィルタ生成方法、及び頭外定位処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18754345

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018754345

Country of ref document: EP

Effective date: 20190920