WO2021024752A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021024752A1
WO2021024752A1 PCT/JP2020/027776 JP2020027776W WO2021024752A1 WO 2021024752 A1 WO2021024752 A1 WO 2021024752A1 JP 2020027776 W JP2020027776 W JP 2020027776W WO 2021024752 A1 WO2021024752 A1 WO 2021024752A1
Authority
WO
WIPO (PCT)
Prior art keywords
filter
convolution
signal
difference
sound image
Prior art date
Application number
PCT/JP2020/027776
Other languages
English (en)
French (fr)
Inventor
健司 中野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/629,493 priority Critical patent/US20220295213A1/en
Publication of WO2021024752A1 publication Critical patent/WO2021024752A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices, methods, and programs capable of reducing the amount of signal processing.
  • the immersive sound system mainly for movie contents has come to cover not only the sound field feeling only on the horizontal plane but also the sound field feeling including the upper part.
  • signal processing is performed by convolving the HRTF corresponding to the direction in which the sound image is desired to be localized into a desired audio signal.
  • HRTFs for each of the left and right ears in that direction are used, and HRTFs for each of the left and right ears are convoluted into a desired audio signal for both ears.
  • a signal that is, a signal S1L for the left ear and a signal S1R for the right ear are obtained.
  • the HRTFs for each of the left and right ears in that different direction are convoluted into another desired audio signal, and the signal S2L for the left ear and the right ear.
  • Signal S2R is obtained.
  • the signal obtained by adding the signal S1L and the signal S2L for the left ear and the signal obtained by adding the signal S1R and the signal S2R for the right ear are the final signals for the left and right ears. It is regarded as a signal.
  • the number of directions in which sound image localization is performed tends to increase, and as the number of directions increases, it becomes difficult to secure resources related to signal processing.
  • This technology was made in view of such a situation, and makes it possible to reduce the amount of signal processing.
  • the signal processing device on one side of the present technology has a transmission characteristic from the first position on the circumference of the cone-shaped convolution to the listening position and the listening position from the second position on the circumference.
  • a first convolution processing unit that convolves an audio signal with a difference filter that adds a characteristic of difference from the transmission characteristics up to, and a notch formation that forms a high-frequency notch for the signal obtained by the convolution. It is provided with a notch forming portion for performing filter processing by a filter.
  • the signal processing method or program of one aspect of the present technology includes transmission characteristics from the first position on the circumference of the cone-shaped convolution to the listening position and the second position on the circumference.
  • the audio signal is convolved by a difference filter that adds the characteristic of the difference from the transmission characteristic up to the listening position, and the signal obtained by the convolution is filtered by the notch forming filter that forms a high frequency notch. Includes steps to take.
  • the transmission characteristic between the first position on the circumference of the cone-shaped convolution and the listening position and the distance between the second position on the circumference and the listening position is convolved by a difference filter that adds a characteristic of difference from the transmission characteristic of the above, and the signal obtained by the convolution is filtered by a notch forming filter that forms a high frequency notch.
  • the upper layer and lower layer speakers are arranged in the same azimuth angle as the speakers arranged in the middle layer (horizontal plane) but only the elevation angle (depression angle) is changed.
  • the speakers are arranged on the circumference of the cone-shaped confusion (cone of confusion) of the speakers arranged in the middle layer.
  • the former arrangement pattern can be approximated to the latter arrangement pattern as long as the azimuth angle indicating the speaker arrangement position is not large. That is, it can be said that the former arrangement pattern is substantially the same as the case where the difference in azimuth angles between the arrangement positions of different speakers on the circumference in the latter arrangement pattern is small.
  • the middle layer speaker is arranged on the circumference of the circle which is the bottom surface (cross section) of the cone CN11, that is, on the circumference CR11, and the upper layer or the lower layer speaker is also arranged on the circumference CR11.
  • the same circumference CR11 in which such upper and lower layer speakers and middle layer speakers are arranged is a cone-shaped mixed circumference.
  • a plurality of speakers are arranged on a cone-shaped confusion circumference CR11, a plurality of speakers are arranged at the position of the listener, that is, at a position equidistant from the origin O which is the listening position. It can be said that it is.
  • the listener binaural difference regarding the speaker placement position that is, the arrival of sound from the speaker placement position.
  • the time and volume will be roughly the same.
  • the timbral element that is, the frequency characteristic of the HRTF (the shape of the signal in the frequency domain), becomes a queue that determines where the speaker is located on the circumference CR11. In other words, the frequency characteristics of the HRTF will be determined by the position of the speaker on the circumference CR11.
  • the localization of the speaker in the middle layer (horizontal plane) is realized in advance by the real speaker or the virtual speaker, it is only necessary to add a timbre element to the HRTF corresponding to the speaker in the middle layer.
  • a timbre element to the HRTF corresponding to the speaker in the middle layer.
  • an HRTF for localizing a sound image at the position of a virtual speaker SP11 arranged on the left front side when viewed from the user U11 has already been obtained. It is assumed that it has been done.
  • the HRTF for the left ear showing the transmission characteristics from the position of the speaker SP11 to the left ear of the user U11 as shown by arrow Q11, and the HRTF for the left ear as shown by the arrow Q12 from the position of the speaker SP11 to the right ear of the user U11.
  • the HRTF for the right ear which shows the transmission characteristics between the two, is obtained.
  • the user U11 and the speaker SP11 are on a horizontal plane.
  • direction A the direction from the speaker SP11 to the user U11
  • direction A the direction from the speaker SP11 to the user U11
  • the HRTF for the left ear and the HRTF for the right ear obtained in the direction A are also referred to as a sound image localization filter HAL and a sound image localization filter HAR.
  • the HRTF showing the transmission characteristics of the path through which the sound reaches the ear of the user U11 will also be referred to as the Hinata side HRTF.
  • the HRTF showing the transmission characteristics of the path around the head of the user U11 and reaching the ears of the user U11 will also be referred to as the shade side HRTF.
  • the side of the ear closer to the speaker SP11, which is the sound source, is the Hinata side
  • the side of the ear farther from the speaker SP11 is the shade side
  • the HRTF for the left ear that is, the sound image localization filter HAL is the Hinata side HRTF
  • the HRTF for the right ear that is, the sound image localization filter HAR is the shade side HRTF
  • the sound is reproduced based on the signal obtained by convolving the audio signal and the Hinata side HRTF, and the sound is presented to the left ear of the user U11. That is, based on the signal obtained by the convolution process, the sound is reproduced by the speaker (driver) on the left ear side of the headphones attached to the user U11.
  • the user U11 can hear the sound as if the sound image of the sound based on the audio signal is localized at the position of the speaker SP11. That is, the user U11 hears the sound based on the audio signal as if it propagates from a certain direction A of the speaker SP11.
  • the speaker SP11 and the virtual speaker corresponding to the direction B are located on the circumference of the cone-shaped confusion.
  • the difference (difference) in frequency characteristics obtained for those positions (directions) is between the Hinata side HRTF and the shade side HRTF. Does not necessarily have the same shape.
  • the HRTF from the position P1 where the azimuth and elevation are (azimuth, elevation) (30deg, 0deg) when viewed from the user U11 is as shown in FIG.
  • the horizontal axis shows the frequency and the vertical axis shows the level.
  • the curve L11 shows the frequency characteristics of the Hyuga side HRTF for the position P1
  • the curve L12 shows the frequency characteristics of the shade side HRTF for the position P1.
  • the curve L21 shows the frequency characteristic of the Hyuga side HRTF for the position P2
  • the curve L22 shows the frequency characteristic of the shade side HRTF for the position P2.
  • the curve L31 shows the difference between the frequency characteristic of the Hinata side HRTF for the position P1 shown in the curve L11 and the frequency characteristic of the Hinata side HRTF for the position P2 shown in the curve L21.
  • curve L32 shows the difference between the frequency characteristics of the shaded HRTF for position P1 shown in curve L12 and the frequency characteristics of the shaded HRTF for position P2 shown in curve L22. There is.
  • the difference in the frequency characteristics of the HRTFs at those positions that is, the difference in the spectral shape is the same on the Hinata side and the shade side. If so, the shapes of the curve L31 and the curve L32 in FIG. 5 should be the same.
  • the timbral element that is, the frequency response of the HRTF
  • the frequency is actually the same for the left and right ears when the position is changed. There is no change in characteristics.
  • the signal processing as shown in FIG. 6 is performed to reproduce the sound based on the audio signal. Just do it.
  • the direction B is the direction from the virtual speaker SP21 at the position where the sound image is to be localized toward the user U11.
  • the HRTF showing the transmission characteristics from the speaker SP21 to the left ear of the user U11 is the HRTF for the left ear, and hereinafter, this HRTF for the left ear is also referred to as the sound image localization filter HBL. ..
  • the HRTF showing the transmission characteristics from the speaker SP21 to the right ear of the user U11 is the HRTF for the right ear, and hereinafter, this HRTF for the right ear is also referred to as the sound image localization filter HBR. To do.
  • the HRTF for the left ear that is, the sound image localization filter HBL is the Hinata side HRTF
  • the HRTF for the right ear that is, the sound image localization filter HBR is the shade side HRTF
  • the difference (HBL-HAL) between the sound image localization filter HBL in the direction B and the sound image localization filter HAL in the direction A is referred to as the Hyuga side HRTF difference filter in the direction B with respect to the direction A. That is, the Hyuga side HRTF difference filter in the direction B with respect to the direction A is a filter for adding the difference characteristic between the transmission characteristic of the sound image localization filter HBL and the transmission characteristic of the sound image localization filter HAL.
  • the difference (HBR-HAR) between the sound image localization filter HBR in the direction B and the sound image localization filter HAR in the direction A is referred to as the shade side HRTF difference filter in the direction B with respect to the direction A.
  • Hinata side HRTF difference filter when it is not necessary to distinguish between the Hinata side HRTF difference filter and the shade side HRTF difference filter, they are also simply referred to as a difference filter.
  • sound image localization as if sound propagates from direction B can be realized by using the sound image localization filter HAL, the Hinata side HRTF difference filter, the sound image localization filter HAR, and the shade side HRTF difference filter. it can.
  • a sound image localization filter for localizing the sound image in the direction B can be realized. ..
  • convolution processing for the audio signal by the sound image localization filter HAL, that is, convolution processing between the filter coefficient (HRTF) constituting the sound image localization filter HAL and the audio signal is performed.
  • the convolution process by the Hyuga side HRTF difference filter is further performed on the signal obtained by the convolution process, and the sound is reproduced based on the signal obtained as a result.
  • a convolution process was performed on the audio signal by the sound image localization filter HAR, and a convolution process was further performed on the resulting signal by the shade side HRTF difference filter, and the result was obtained. Sound is reproduced based on the signal.
  • the sound image localization filter HAL and the sound image localization filter HAR are obtained for direction A
  • the sound image localization for direction B is provided if the Hinata side HRTF difference filter and the shade side HRTF difference filter are held as additional filters. Can also be realized.
  • the Hinata side HRTF difference filter is used as the difference filter instead of the shade side HRTF difference filter in FIG.
  • the sound image localization filter HAR performs convolution processing on the audio signal, and the resulting signal is convolution processing by the Hinata side HRTF difference filter.
  • the signal obtained by the convolution processing by the Hinata side HRTF difference filter is filtered by the notch forming filter Nx obtained in advance for the direction B, and the sound is reproduced based on the resulting signal.
  • the recess (valley) at the bottom is called a notch (high frequency notch).
  • a high frequency notch having the transmission characteristic on the shade side in the direction B, that is, the frequency characteristic of the HRTF on the shade side in the direction B is formed.
  • the audio signal is first subjected to convolution processing by the Hinata side HRTF difference filter HXB, and the resulting signal is filtered by the notch forming filter Nx.
  • the processing up to the filter processing by the notch forming filter Nx is common to the left and right ears, and the amount of signal processing is reduced by this.
  • the filter processing by the notch formation filter Nx Is a common process for the left and right ears.
  • a convolution process is performed between the signal obtained by the filter processing by the notch forming filter Nx and the HRTF for the left ear, that is, the sound image localization filter HAL, and based on the signal obtained as a result.
  • the sound is played.
  • a convolution process is performed between the signal obtained by the filter processing by the notch forming filter Nx and the HRTF for the right ear, that is, the sound image localization filter HAR, and based on the resulting signal.
  • the sound is played.
  • the amount of signal processing can be reduced by sharing the convolution processing by the Hinata side HRTF difference filter HXB and the filter processing by the notch formation filter Nx for the left and right ears.
  • N different positions on the same circumference of the cone-shaped confusion including the above-mentioned direction A can be formed.
  • a filter that can simultaneously localize the sound image in the indicated direction can be configured.
  • the audio signal of the sound that attempts to localize the sound image in each of the directions V1 to VN indicating each of N different positions on the same circumference of the cone-shaped confusion is an audio signal. It is said to be SG1 to audio signal SGN.
  • the Hinata side HRTF difference filter for each direction V1 to direction VN with respect to the direction A is the Hinata side HRTF difference filter HX1 to the Hinata side HRTF difference filter HXN.
  • the notch forming filters on the shade side for each direction V1 to VN are the notch forming filter Nx1 to the notch forming filter NxN, respectively.
  • the signals obtained by the convolution processing for each direction Vn are filtered by the notch forming filter Nxn in the direction Vn, and obtained by the filtering processing.
  • the signals are added to generate an added signal.
  • the added signal obtained in this way is convolved with the sound image localization filter (HRTF) on the Hyuga side and the shade side, respectively.
  • HRTF sound image localization filter
  • the addition signal and the sound image localization filter HAL that is, the Hinata side HRTF are convolved, and the sound is reproduced based on the resulting signal, and the sound is reproduced. Is presented to the left ear of user U11.
  • a convolution process is performed between the addition signal and the sound image localization filter HAR, that is, the shade side HRTF, and the sound is reproduced based on the resulting signal, and the sound is reproduced. Is presented to the right ear of user U11.
  • the convolution processing by the difference filter was originally required on the Hinata side and the shade side, respectively, whereas in this example, the convolution processing by the difference filter is performed on the Hinata side. Can be shared on the shade side and processed once. That is, the amount of signal processing can be reduced.
  • Hinata side HRTF difference filter HXn can sufficiently obtain its effect even if it does not cover the entire audible band. That is, the convolution processing by the Hinata side HRTF difference filter HXn may be performed for a frequency band of about 10 kHz or less, for example, and the signal processing amount can be further reduced by doing so.
  • Hinata side HRTF difference filter HXn may be an FIR (Finite Impulse Response) type filter or simply an IIR (Infinite Impulse Response) type filter.
  • FIG. 10 is a diagram showing a configuration example of an embodiment of a signal processing device to which the present technology is applied.
  • the signal processing device 11 shown in FIG. 10 includes a convolution processing unit 21-1 to a convolution processing unit 21-N, a notch forming unit 22-1 to a notch forming unit 22-N, an addition unit 23, and a left ear side convolution processing unit 24. It also has a right ear side convolution processing unit 25.
  • N different signals are located on the same circumference of a cone-shaped confusion whose apex is the listening position, that is, the user's head position, as in the example described with reference to FIG.
  • a headphone reproduction signal for simultaneously localizing the sound image at each position (direction) is generated.
  • the convolution processing unit 21-1 to the convolution processing unit 21-N are supplied with an audio signal SG1 to an audio signal SGN that attempts to localize the sound image in the direction V1 to the direction VN.
  • the convolution processing unit 21 when it is not necessary to distinguish the convolution processing unit 21-1 to the convolution processing unit 21-N, it is also simply referred to as the convolution processing unit 21.
  • the convolution processing unit 21-n (however, 1 ⁇ n ⁇ N), the difference between the sun-side HRTF in one predetermined direction Vm in the direction V1 to VN and the sun-side HRTF in the direction Vn
  • the Hinata side HRTF difference filter HXn for adding characteristics is held in advance. That is, the Hinata side HRTF difference filter HXn is a difference filter on the Hinata side of the direction Vn with respect to the direction Vm.
  • the convolution processing unit 21-n (however, 1 ⁇ n ⁇ N) performs convolution processing (filter processing) on the supplied audio signal SGn by the Hinata side HRTF difference filter HXn, and the resulting audio signal SGn' Is supplied to the notch forming portion 22-n. That is, the convolution processing of the audio signal SGn and the Hinata side HRTF difference filter HXn is performed.
  • the audio signal SG when it is not necessary to distinguish the audio signal SG1 to the audio signal SGN, it is also simply referred to as the audio signal SG, and when it is not necessary to distinguish the audio signal SG1'to the audio signal SGN', it is simply referred to as the audio signal SG'. Also called.
  • Hinata side HRTF difference filter HX1 when it is not necessary to distinguish between the Hinata side HRTF difference filter HX1 and the Hinata side HRTF difference filter HXN, it is also simply referred to as the Hinata side HRTF difference filter HX.
  • notch forming portion 22-n (however, 1 ⁇ n ⁇ N), a high frequency notch having the transmission characteristic on the shade side with respect to the direction Vn, that is, the frequency characteristic of the shade side HRTF with the direction Vn is formed.
  • the notch forming filter Nxn is held in advance.
  • the notch forming unit 22-n (however, 1 ⁇ n ⁇ N) performs a filter process based on the notch forming filter Nxn held in advance for the audio signal SGn'supplied from the convolution processing unit 21-n. , The audio signal SGn'' obtained as a result is supplied to the addition unit 23.
  • notch forming portion 22 when it is not necessary to particularly distinguish the notch forming portion 22-1 to the notch forming portion 22-N, it is also simply referred to as the notch forming portion 22.
  • the audio signal SG1'' when it is not necessary to distinguish the audio signal SG1'' to the audio signal SGN'', it is also simply referred to as the audio signal SG'', and the notch forming filter Nx1 to the notch forming filter NxN do not need to be distinguished. , Also referred to simply as the notch forming filter Nx.
  • the addition unit 23 adds the audio signals SG1'' to the audio signal SGN'' supplied from the notch forming unit 22-1 to the notch forming unit 22-N to form one addition signal, and the obtained addition signal is left. It is supplied to the ear side convolution processing unit 24 and the right ear side convolution processing unit 25.
  • the left ear side convolution processing unit 24 performs convolution processing of the addition signal supplied from the addition unit 23 and the HRTF for the left ear held in advance, that is, the sound image localization filter for the left ear, and the user. Generates a headphone playback signal for the left ear to reproduce the sound presented to the left ear.
  • the sound image localization filter for the left ear in the direction Vm is from a position corresponding to the direction Vm on the same circumference of a cone-shaped confusion whose apex is the user's head position, which is the listening position. It is an HRTF for adding the transmission property between the left ear and the left ear.
  • the left ear side convolution processing unit 24 outputs the obtained headphone reproduction signal for the left ear to the speaker (driver) for the left ear of the headphones (not shown).
  • the right ear side convolution processing unit 25 performs convolution processing of the addition signal supplied from the addition unit 23 and the HRTF for the right ear in the direction Vm held in advance, and reproduces the sound presented to the user's right ear. Generates a headphone playback signal for the right ear to do.
  • the sound image localization filter for the right ear in the direction Vm is from the position corresponding to the direction Vm on the same circumference of the cone-shaped confusion whose apex is the position of the user's head, which is the listening position, to the user's right ear.
  • the right-ear side convolution processing unit 25 outputs the obtained headphone reproduction signal for the right ear to the speaker for the right ear of the headphones (not shown).
  • the process of convolving the HRTF to generate a headphone reproduction signal which is performed by the left ear side convolution processing unit 24 and the right ear side convolution processing unit 25, is called binaural processing.
  • the playback device (device) to which the headphone playback signal is output is not limited to headphones, and may be any device such as earphones as long as it is worn on the user's ear. Further, the signal processing device 11 may be provided inside the headphones or the like.
  • step S11 each of the N convolution processing units 21 convolves the supplied audio signal SG and the holding Hinata side HRTF difference filter HX, and the audio signal SG'obtained as a result is transferred to the notch forming unit 22. Supply.
  • each of the N notch forming portions 22 filters the audio signal SG'supplied from the convolution processing unit 21 by the notch forming filter Nx, and obtains the audio signal SG'' as a result. It is supplied to the addition unit 23.
  • step S13 the addition unit 23 performs an addition process of adding the audio signals SG'' supplied from each of the N notch forming units 22, and the added signal obtained as a result is the left ear side convolution processing unit 24 and the right. It is supplied to the ear side convolution processing unit 25.
  • step S14 the left ear side convolution processing unit 24 performs a convolution process on the left ear side.
  • the left ear side convolution processing unit 24 convolves the addition signal supplied from the addition unit 23 with the HRTF for the left ear in the direction Vm to obtain a headphone reproduction signal for the left ear.
  • step S15 the right ear side convolution processing unit 25 performs a convolution process on the right ear side.
  • the right ear side convolution processing unit 25 convolves the addition signal supplied from the addition unit 23 with the HRTF for the right ear in the direction Vm, and obtains the headphone reproduction signal for the right ear.
  • the left ear side convolution processing unit 24 and the right ear side convolution processing unit 25 output the obtained headphone reproduction signals to the subsequent stage to reproduce the sound. , The playback process ends.
  • the headphones can reproduce the sound as if the sound were heard from each direction from the direction V1 to the direction VN.
  • the signal processing device 11 convolves the Hinata side HRTF difference filter HX and forms a high frequency notch with respect to the audio signals in each direction, and adds the audio signals obtained by these processes. .. Further, the signal processing device 11 convolves the HRTF in the direction Vm with the added signal obtained by the addition, and generates a headphone reproduction signal.
  • the crosstalk cancel process is further performed to generate sound from each of the plurality of speakers.
  • a speaker reproduction signal for reproduction may be generated.
  • the binaural processing in the final stage of the example described with reference to FIG. 9 may be replaced with a transoral processing including binaural processing and crosstalk canceling processing.
  • the signal processing device is configured as shown in FIG.
  • the signal processing device 51 shown in FIG. 12 includes a convolution processing unit 21-1 to a convolution processing unit 21-N, a notch forming unit 22-1 to a notch forming unit 22-N, an addition unit 23, and a left ear side convolution processing unit 24. It has a right ear side convolution processing unit 25 and a cross talk canceling processing unit 61.
  • the configuration of the signal processing device 51 is different from the configuration of the signal processing device 11 of FIG. 10 in that a crosstalk canceling processing unit 61 is newly provided, and is the same configuration as the signal processing device 11 in other respects.
  • the cross talk cancel processing unit 61 performs cross talk cancel processing based on the headphone reproduction signal supplied from the left ear side convolution processing unit 24 and the headphone reproduction signal supplied from the right ear side convolution processing unit 25, and each of them performs cross talk cancellation processing. Generates a speaker reproduction signal for the speaker.
  • the crosstalk cancel processing unit 61 outputs a speaker reproduction signal to each speaker, and reproduces the sound in those speakers.
  • steps S41 to S45 is the same as the processing of steps S11 to S15 of FIG. 11, so the description thereof will be omitted.
  • the headphone reproduction signals for the left ear and the right ear obtained in steps S44 and S45 are supplied from the left ear side convolution processing unit 24 and the right ear side convolution processing unit 25 to the crosstalk cancel processing unit 61.
  • step S46 the crosstalk canceling processing unit 61 performs crosstalk canceling processing based on the headphone reproduction signals supplied from the left ear side convolution processing unit 24 and the right ear side convolution processing unit 25, and the speaker reproduction signal of each speaker. To generate.
  • the crosstalk cancel processing unit 61 When the speaker reproduction signal is obtained in this way, the crosstalk cancel processing unit 61 outputs the speaker reproduction signal to each speaker to reproduce the sound, and the reproduction processing ends.
  • the signal processing device 51 performs the crosstalk canceling process based on the headphone reproduction signal obtained by the convolution and notch formation of the Hinata side HRTF difference filter HX, the addition process, and the convolution of the HRTF in the direction Vm. Generates a speaker playback signal. By doing so, the amount of signal processing can be reduced as in the case of the signal processing device 11.
  • a wall WR11 is arranged in front of the right front of the user U21 who is a listener, and the acoustic beam output from the acoustic beam generator AM11 is reflected by the wall WR11 to produce sound based on the acoustic beam. It will be presented to U21.
  • an acoustic beam is output from the acoustic beam generator AM11 toward the wall WR11 based on an audio signal that reproduces the sound of a predetermined sound source
  • the acoustic beam is reflected by the wall WR11 and is reflected by the user U21 at the listening position. Reach the ears.
  • the acoustic beam arrives from a certain direction of the wall WR11 (hereinafter, also referred to as direction C) when viewed from the user U21.
  • the user U21 feels that the sound is heard from the direction C. That is, the sound image of the sound based on the acoustic beam is localized on the direction C side when viewed from the user U21.
  • the reflection point of the acoustic beam on the wall WR11 is defined as point P11
  • the point where the distance from user U21 is equidistant from the distance from user U21 to point P11 is defined as point P12.
  • points P11 and P12 are located on the same circumference of the cone-shaped confusion as seen by user U21.
  • the direction of the point P12 as seen from the user U21 will also be referred to as the direction D.
  • Point P11 which is the reflection point of the acoustic beam
  • point P12 are located on the same circumference of a cone-shaped confusion. Therefore, if the acoustic beam is output from the acoustic beam generator AM11 using this technology, the acoustic beam (reflected sound) physically arrives from the direction C, but the acoustic beam arrives aurally from the direction D. It is possible to make you feel as if you are doing it.
  • the sun-side HRTF (sound image localization filter) for direction C and the sun-side HRTF difference filter for direction D, and the shade-side high-frequency notch for direction D are used.
  • the notch forming filter Nx to be formed may be prepared.
  • the right ear side of user U21 is the Hyuga side for direction C. Therefore, the Hinata side HRTF for direction C is from the acoustic beam generator AM11 to the user U21's right ear when the acoustic beam is reflected from the acoustic beam generator AM11 at point P11 and reaches the user U21's right ear. It is a sound image localization filter for adding transmission characteristics between.
  • the Hyuga side HRTF for direction D is a sound image localization filter for adding transmission characteristics from point P12 to the right ear of user U21.
  • the HRTF difference filter on the sun side of the direction D with respect to the direction C is convolved with the audio signal of the sound of the sound source to be reproduced, and the resulting signal is filtered by the notch forming filter Nx. Is done.
  • the acoustic beam generator AM11 generates an acoustic beam based on the reproduced signal obtained in this way, and outputs the acoustic beam toward the point P11 on the wall WR11.
  • the acoustic beam output from the acoustic beam generator AM11 is reflected at the point P11 of the wall WR11 and reaches the user U21.
  • the acoustic beam is actually propagated from the direction C to the user U21, but the user U21 feels that the sound is heard from the direction D. That is, it is possible to obtain a sense of localization in the direction D as an auditory sense.
  • the acoustic beam generator AM11 or the like may simply be output from that position toward the user U21. However, it may not be possible to place the acoustic beam generator AM11 in the desired position.
  • this technology can be used in any direction by a simple process of convolution processing by the Hinata side HRTF difference filter and filter processing by the notch forming filter without changing the arrangement position of the acoustic beam generator AM11. A feeling of localization can be realized.
  • the signal processing device that reflects the acoustic beam on a wall or the like to realize a feeling of localization in a desired direction is configured as shown in FIG. 15, for example.
  • the signal processing device 91 shown in FIG. 15 has a convolution processing unit 101, a notch forming unit 102, and an acoustic beam generation unit 103.
  • the acoustic beam arrives at the user from a predetermined direction C as viewed from the user as a listener by reflecting the acoustic beam on the wall or the like as in the example described with reference to FIG. Be made to do.
  • the direction D in which the sound image is desired to be localized is predetermined, and the position in the direction C and the position in the direction D when viewed from the user are a cone-shaped position having the listening position, that is, the user's head position as the apex. It shall be on the same circumference of confusion.
  • the convolution processing unit 101 holds in advance a Hinata-side HRTF difference filter that adds the characteristics of the difference between the Hinata-side HRTF in the direction C and the Hinata-side HRTF in the direction D. Further, the convolution processing unit 101 is supplied with an audio signal SG that attempts to localize the sound image in the direction D.
  • the convolution processing unit 101 convolves the supplied audio signal SG and the holding Hinata side HRTF difference filter, and supplies the resulting audio signal SG'to the notch forming unit 102.
  • the notch forming portion 102 holds in advance a notch forming filter Nx for forming a high frequency notch on the shade side in the direction D.
  • the notch forming unit 102 performs filter processing based on the notch forming filter Nx held in advance on the audio signal SG'supplied from the convolution processing unit 101, and acoustically obtains the audio signal SG'' obtained as a result. It is supplied to the beam generation unit 103.
  • the acoustic beam generation unit 103 is composed of, for example, an ultrasonic speaker, and outputs an acoustic beam having directivity in a predetermined direction based on the audio signal SG ′′ supplied from the notch forming unit 102. That is, the acoustic beam generation unit 103 outputs a sound having directivity.
  • step S71 the convolution processing unit 101 convolves the supplied audio signal SG with the HRTF difference filter on the sun side in the direction D with respect to the holding direction C, and inserts the resulting audio signal SG'in the notch forming unit 102. Supply to.
  • step S72 the notch forming unit 102 performs filter processing based on the notch forming filter Nx on the shade side in the direction D on the audio signal SG'supplied from the convolution processing unit 101, and the obtained audio signal SG' 'Is supplied to the acoustic beam generation unit 103.
  • step S73 the acoustic beam generation unit 103 generates and outputs an acoustic beam having directivity in a predetermined direction based on the audio signal SG ′′ supplied from the notch forming unit 102.
  • the acoustic beam generation unit 103 outputs the acoustic beam in a predetermined direction so that the acoustic beam is reflected by the wall or the like and reaches the user at the listening position.
  • the acoustic beam physically arrives at the user from the direction C, but the sound reproduction that makes the user feel as if the sound is heard from the direction D is realized.
  • the signal processing device 91 convolves and notches the HRTF difference filter on the Hinata side with respect to the audio signal, and generates and outputs an acoustic beam based on the audio signal obtained by these processes. .. By doing so, it is possible to easily realize a sense of localization in any direction.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 17 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • the ROM ReadOnly Memory
  • the RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510.
  • the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium.
  • the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in chronological order in the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • the first convolution processing unit that convolves the audio signal by the difference filter that adds
  • a signal processing device including a notch forming portion that filters a signal obtained by the convolution with a notch forming filter that forms a high frequency notch.
  • the difference filter has a transmission characteristic from the first position to the ear closer to the first position of the user in the listening position, and the second position of the user from the second position.
  • the signal processing apparatus according to (1) which is a filter that adds a characteristic of difference from the transmission characteristic to the ear on the side closer to the position of.
  • the sound image localization filter that adds the transmission characteristic from the first position to the listening position further includes a second convolution processing unit that convolves the signal obtained by the filter processing (1) or (2). ).
  • the signal processing device (4) An adder that adds signals obtained by a plurality of different second positions on the circumference and obtained by the convolution by the difference filter and the filter processing by the notch forming filter. With more The signal processing device according to (3), wherein the second convolution processing unit convolves the signal obtained by the addition by the sound image localization filter.
  • the right ear sound image localization filter that adds transmission characteristics from the first position to the user's right ear further includes a right ear side convolution processing unit that convolves the signal obtained by the filter processing.
  • An adder that adds signals obtained by a plurality of different second positions on the circumference and obtained by the convolution by the difference filter and the filter processing by the notch forming filter. With more The left-ear side convolution processing unit convolves the signal obtained by the addition with the left-ear sound image localization filter.
  • the signal processing device wherein the right ear side convolution processing unit convolves the signal obtained by the addition by the right ear sound image localization filter.
  • a crosstalk canceling processing unit that performs crosstalk canceling processing based on the signal obtained by convolution by the left ear sound image localization filter and the signal obtained by convolution by the right ear sound image localization filter is further provided (5).
  • the signal processing apparatus according to any one of (7).
  • the signal processing apparatus according to (1) or (2), further comprising an acoustic beam generator that outputs an acoustic beam having directivity based on the signal obtained by the filtering.
  • the signal processing device (10) The signal processing device according to (9), wherein the acoustic beam generation unit outputs the acoustic beam in a predetermined direction so that the acoustic beam is reflected and reaches the listening position.
  • the signal processing device The characteristic of the difference between the transmission characteristic between the first position on the circumference of the cone-shaped convolution and the listening position and the transmission characteristic between the second position on the circumference and the listening position. Convolution is performed on the audio signal by the difference filter that adds A signal processing method in which a signal obtained by the convolution is filtered by a notch forming filter that forms a high frequency notch.

Abstract

本技術は、信号処理量を低減させることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、円周上にある第2の位置から受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行う第1の畳み込み処理部と、畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行うノッチ形成部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、信号処理量を低減させることができるようにした信号処理装置および方法、並びにプログラムに関する。
 主として映画コンテンツに向けたイマーシブ(immersive)な音響方式は、それまでの水平面のみの音場感ではなく、上方も含めた音場感をカバーするようになった。
 また、22.2chの音響方式には、前方側に下層スピーカが設けられるものもあり、さらに今後はゲームやVR(Virtual Reality)等の分野において全天球をカバーしたイマーシブな音響再生が民生製品の分野においても求められようとしている。
 当然ながらこれらの音響方式は、水平面のみならず上層側や下層側にも再生スピーカを数多く配置させることを要求している。
 このような音響方式を民生で普及させるために、信号処理によって数少ない再生スピーカで数多くの仮想スピーカを生成する方式の要求が高まってくるものと考えられる。
 ところで、音像定位を実現する代表的な方式として、頭部音響伝達関数(HRTF(Head Related Transfer Function))を用いたものがある(例えば、特許文献1参照)。
 一般的に、HRTFを用いて音像定位を実現する場合、音像を定位させたい方向に対応するHRTFを所望のオーディオ信号に畳み込む信号処理が行われる。
 具体的には、例えば所定の方向に対する音像定位フィルタとして、その方向の左右の耳ごとのHRTFが用いられ、左右の耳ごとのHRTFが所望のオーディオ信号に畳み込まれて左右の両耳用の信号、すなわち左耳用の信号S1Lと、右耳用の信号S1Rとが得られる。
 さらに、別の方向にも同時に音像定位させたい場合には、その別の方向の左右の耳ごとのHRTFが、別の所望のオーディオ信号に畳み込まれて左耳用の信号S2Lと、右耳用の信号S2Rとが得られる。
 そして、左耳用の信号S1Lと信号S2Lとを加算して得られた信号、および右耳用の信号S1Rと信号S2Rとを加算して得られた信号が、最終的な左右の耳用の信号とされる。
国際公開第2017/119318号
 しかしながら、上述した技術では、同時に複数の方向に音像を定位させようとする場合には、信号処理量が多くなってしまう。
 例えば、上述した例において2つの方向の音像定位を同時に行うためには、音像定位フィルタは2個必要となり、音像定位フィルタによる畳み込みの信号処理量は、1つの方向の音像定位を行う場合と比較して2倍となる。同様に、N個の方向について同時に音像定位を行うときには、信号処理量はN倍となる。
 上述のイマーシブな音響方式では、音像定位を行う方向の数が多くなる傾向にあり、その方向数が多くなるほど、信号処理に関するリソースの確保は困難となる。
 本技術は、このような状況に鑑みてなされたものであり、信号処理量を低減させることができるようにするものである。
 本技術の一側面の信号処理装置は、コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行う第1の畳み込み処理部と、前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行うノッチ形成部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行い、前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行うステップを含む。
 本技術の一側面においては、コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みが行われ、前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理が行われる。
コーン状の混同について説明する図である。 所定方向への音像定位について説明する図である。 HRTFの周波数特性例を示す図である。 HRTFの周波数特性例を示す図である。 HRTFの周波数特性の差分を示す図である。 日向側HRTF差分フィルタを用いた音像定位について説明する図である。 日向側HRTF差分フィルタを用いた音像定位について説明する図である。 処理の共通化について説明する図である。 複数方向への音像定位について説明する図である。 信号処理装置の構成を示す図である。 再生処理を説明するフローチャートである。 信号処理装置の構成を示す図である。 再生処理を説明するフローチャートである。 音響ビームの反射による音像形成について説明する図である。 信号処理装置の構成を示す図である。 再生処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 上述したように、音像定位フィルタとしてHRTFを用いて音像定位を実現する場合、同時に音像を定位させたい方向が多くなるほど信号処理量が多くなってしまう。
 しかも、イマーシブな音響方式では、同時に音像を定位させようとする方向が多くなる傾向にあり、信号処理量の低減が望まれている。
 ところで、イマーシブな音響方式の一般的な再生スピーカの配置パターンとしては、上層および下層のスピーカが、中層(水平面)に配置されるスピーカと同一方位角で仰角(俯角)のみを変えた配置のもの、または中層に配置されたスピーカのコーン状の混同(cone of confusion)の円周上に配置されたものが多い。
 なお、前者の配置パターンについては、スピーカ配置位置を示す方位角が大きくなければ、後者の配置パターンと近似できる。すなわち、前者の配置パターンは、後者の配置パターンにおける円周上の互いに異なるスピーカの配置位置間の方位角の差が小さい場合と略同じであるといえる。
 例えば図1に示すように、受聴者(リスナ)であるユーザの頭部の位置を原点Oとし、その原点O、つまり受聴位置を頂点とするコーン状の円錐CN11について考える。
 ここでは、円錐CN11の底面(断面)である円の周上、すなわち円周CR11上に中層のスピーカが配置されており、上層または下層のスピーカも円周CR11上に配置されているとする。
 このような上層や下層のスピーカと、中層のスピーカとが配置された同一の円周CR11がコーン状の混合の円周である。
 換言すれば、複数のスピーカがコーン状の混同の円周CR11上に配置されているとは、受聴者の位置、つまり受聴位置である原点Oから等距離の位置に複数のスピーカが配置されていることであるということができる。
 このように、上層や下層のスピーカと、中層のスピーカとがコーン状の混同の円周CR11上にあれば、それらのスピーカ配置位置についてのリスナ両耳差、すなわちスピーカ配置位置からの音の到達時間や音量は大略的には同様なものとなる。
 そして音色的要素、すなわちHRTFの周波数特性(周波数領域における信号の形状)が、円周CR11上のどの位置にスピーカが配置されているかを決めるキューとなる。換言すれば、スピーカが円周CR11上のどの位置に配置されているかによって、HRTFの周波数特性が決まることになる。
 このような性質を利用することで、例えば中層(水平面)のスピーカの定位が予め実スピーカまたは仮想スピーカで実現されていれば、その中層のスピーカに対応するHRTFに音色的要素を付加するだけで、中層のスピーカが配置されたコーン状の混同の円周上にある上層や下層のスピーカの定位感も実現できる可能性がある。
 したがって、同一円周上の複数の位置に音像を定位させる場合、それらの各位置に音像を定位させるための信号処理の一部を共有化することで、全体の信号処理量を低減できる可能性がある。
 そこで、本技術では、所定の方向に対する音像定位が実現している場合、つまり音像定位フィルタが得られている場合において、一部の信号処理を共有化することで、その方向を含む、コーン状の混同の円周上にある任意の位置の方向の音像定位フィルタを簡単に得ることができるようにした。
 以下、音像定位フィルタとしてHRTFを用いる場合について、より具体的に説明する。
 例えば図2に示すように、所定のオーディオ信号に基づく音をヘッドホン再生する場合に、ユーザU11から見て左前方に配置された仮想のスピーカSP11の位置に音像を定位させるためのHRTFが既に得られているとする。
 すなわち、矢印Q11に示すようにスピーカSP11の位置からユーザU11の左耳までの間の伝達特性を示す左耳用のHRTFと、矢印Q12に示すようにスピーカSP11の位置からユーザU11の右耳までの間の伝達特性を示す右耳用のHRTFとが得られているとする。特に、ここではユーザU11とスピーカSP11は水平面上にあるものとする。
 また、スピーカSP11からユーザU11へと向かう方向を方向Aとも称し、特に方向Aについて得られた左耳用のHRTFおよび右耳用のHRTFを、音像定位フィルタHALおよび音像定位フィルタHARとも称することとする。
 さらに、以下では矢印Q11に示すように直接、ユーザU11の耳へと音が到達する経路の伝達特性を示すHRTFを日向側HRTFとも称することとする。
 また、以下、矢印Q12に示すように、ユーザU11の頭部を回り込んでユーザU11の耳へと音が到達する経路の伝達特性を示すHRTFを日影側HRTFとも称することとする。
 換言すれば、ユーザU11の左右の耳のうち、音源であるスピーカSP11から、より近い方の耳の側が日向側であり、スピーカSP11から、より遠い方の耳の側が日影側である。
 この例では左耳用のHRTF、つまり音像定位フィルタHALが日向側HRTFであり、右耳用のHRTF、つまり音像定位フィルタHARが日影側HRTFである。
 この場合、オーディオ信号と日向側HRTFとの畳み込み処理が行われて得られた信号に基づいて音が再生され、その音がユーザU11の左耳に提示される。すなわち、畳み込み処理により得られた信号に基づいて、ユーザU11に装着されたヘッドホンの左耳側のスピーカ(ドライバ)で音が再生される。
 これに対して、ユーザU11の右耳側では、オーディオ信号と日影側HRTFとの畳み込み処理が行われて得られた信号に基づいて音が再生され、その音がユーザU11の右耳に提示される。
 このようにすることで、ユーザU11にとっては、オーディオ信号に基づく音の音像が、スピーカSP11の位置に定位しているように音が聞こえる。すなわち、ユーザU11には、オーディオ信号に基づく音がスピーカSP11のある方向Aから伝搬してくるかのように聞こえる。
 ここで、受聴位置であるユーザU11の頭部位置を頂点とし、方向Aを含む、つまりスピーカSP11の位置を含むコーン状の混同の同一円周上の所定の位置からユーザU11へと向かう、方向Aとは異なる方向Bについての音像定位フィルタを実現することを考える。
 この場合、コーン状の混同の円周上にスピーカSP11と方向Bに対応する仮想のスピーカとが位置している。
 例えば、複数の互いに異なる位置がコーン状の混同の同一円周上にあったとしても、それらの位置(方向)について得られる周波数特性の差(差分)は、日向側HRTFと日影側HRTFとで必ずしも同じ形状とはならない。
 すなわち、例えばユーザU11から見て方位角と仰角が(方位角,仰角)=(30deg,0deg)である位置P1から、ユーザU11までの間のHRTFは図3に示すようになる。
 同様に、ユーザU11から見て方位角と仰角が(方位角,仰角)=(46deg,31deg)である位置P2から、ユーザU11までの間のHRTFは図4に示すようになる。ここでは、位置P1と位置P2は、コーン状の混同の同一円周上に位置している。
 さらに、位置P1のHRTFと位置P2のHRTFとの周波数特性の差は、図5に示すようになる。
 なお、図3乃至図5において横軸は周波数を示しており、縦軸はレベルを示している。
 図3では、曲線L11は位置P1についての日向側HRTFの周波数特性を示しており、曲線L12は位置P1についての日影側HRTFの周波数特性を示している。
 また、図4では、曲線L21は位置P2についての日向側HRTFの周波数特性を示しており、曲線L22は位置P2についての日影側HRTFの周波数特性を示している。
 さらに図5では、曲線L31は、曲線L11に示した位置P1についての日向側HRTFの周波数特性と、曲線L21に示した位置P2についての日向側HRTFの周波数特性との差分を示している。
 同様に図5において、曲線L32は、曲線L12に示した位置P1についての日影側HRTFの周波数特性と、曲線L22に示した位置P2についての日影側HRTFの周波数特性との差分を示している。
 このようなコーン状の混同の同一円周上に位置する位置P1と位置P2について、それらの位置のHRTFの周波数特性の差、すなわちスペクトル形状の差が日向側と日影側とで同じ形状であれば、図5の曲線L31と曲線L32の形状は同じ形状となるはずである。
 しかし、図5から分かるように、これらの曲線L31と曲線L32の形状は同じ形状とはなっていない。
 すなわち、図5から、方向Aと方向Bの日向側HRTFの周波数特性の差は、方向Aと方向Bの日影側HRTFの周波数特性の差と同じ形状となるとは限らないことが分かる。
 曲線L31や曲線L32に示すHRTFの周波数特性の差は、周波数によってやや複雑に変化するのが一般的である。
 そのため、コーン状の混同の円周上のどこの位置にあるかによって音色的要素、すなわちHRTFの周波数特性が決まるといっても、実際には位置を変化させたときに左右の耳で同じ周波数特性の変化が生じているわけではない。
 ここで、上述した方向Bの日向側HRTFと日影側HRTFの両方について、十分な再現性を得ようとする場合、図6に示すような信号処理を行ってオーディオ信号に基づく音を再生すればよい。
 図6では、音像を定位させようとする位置にある仮想のスピーカSP21からユーザU11へと向かう方向が方向Bとなっている。
 また、矢印Q21に示すようにスピーカSP21からユーザU11の左耳までの伝達特性を示すHRTFが左耳用のHRTFであり、以下ではこの左耳用のHRTFを音像定位フィルタHBLとも称することとする。
 同様に、矢印Q22に示すようにスピーカSP21からユーザU11の右耳までの伝達特性を示すHRTFが右耳用のHRTFであり、以下ではこの右耳用のHRTFを音像定位フィルタHBRとも称することとする。
 この例においても図2における場合と同様に、左耳用のHRTF、つまり音像定位フィルタHBLが日向側HRTFであり、右耳用のHRTF、つまり音像定位フィルタHBRが日影側HRTFである。
 ここで、方向Bについての音像定位フィルタHBLと、方向Aについての音像定位フィルタHALとの差分(HBL-HAL)を、方向Aに対する方向Bの日向側HRTF差分フィルタと称することとする。すなわち、方向Aに対する方向Bの日向側HRTF差分フィルタは、音像定位フィルタHBLの伝達特性と、音像定位フィルタHALの伝達特性との差分の特性を付加するためのフィルタである。
 同様に、方向Bについての音像定位フィルタHBRと、方向Aについての音像定位フィルタHARとの差分(HBR-HAR)を、方向Aに対する方向Bの日影側HRTF差分フィルタと称することとする。
 また、以下、日向側HRTF差分フィルタと日影側HRTF差分フィルタを特に区別する必要のない場合、単に差分フィルタとも称することとする。
 この場合、方向Bから音が伝搬してくるかのような音像定位は、音像定位フィルタHAL、日向側HRTF差分フィルタ、音像定位フィルタHAR、および日影側HRTF差分フィルタを用いて実現することができる。
 換言すれば、音像定位フィルタHAL、日向側HRTF差分フィルタ、音像定位フィルタHAR、および日影側HRTF差分フィルタを組み合わせることで、方向Bに音像を定位させるための音像定位フィルタを実現することができる。
 具体的には、左耳側では音像定位フィルタHALによるオーディオ信号に対する畳み込み処理(フィルタ処理)、すなわち、音像定位フィルタHALを構成するフィルタ係数(HRTF)とオーディオ信号との畳み込み処理が行われる。
 そして、その畳み込み処理により得られた信号に対して日向側HRTF差分フィルタによる畳み込み処理がさらに行われ、その結果得られた信号に基づいて音が再生される。
 同様に、右耳側では、音像定位フィルタHARによるオーディオ信号に対する畳み込み処理が行われ、その結果得られた信号に対して日影側HRTF差分フィルタによる畳み込み処理がさらに行われ、その結果得られた信号に基づいて音が再生される。
 したがって、方向Aについて音像定位フィルタHALと音像定位フィルタHARが得られていれば、追加のフィルタとして日向側HRTF差分フィルタと日影側HRTF差分フィルタを保持していれば、方向Bについての音像定位も実現することができる。
 しかし、この場合、日向側HRTF差分フィルタおよび日影側HRTF差分フィルタという2個のフィルタが必要になるため、必ずしも効率的であるとはいえない。これは、音像定位フィルタHBLと音像定位フィルタHBRがあれば方向Bの音像定位を実現できるからである。
 そこで、図7に示すように実験的に日影側、すなわちここでは右耳側で追加する差分フィルタとして、日向側HRTF差分フィルタを用いて音像定位の信号処理を行った。なお、図7において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7の例では、日影側(右耳側)では、図6における日影側HRTF差分フィルタに代えて、日向側HRTF差分フィルタが差分フィルタとして用いられている。
 しかし、これでは定位感に重要といわれているHRTFの高域ノッチが日影側では再現されないので、日影側にはノッチ形成フィルタNxも導入されている。
 具体的には日向側(左耳側)では、図6における場合と同様の処理が行われる。
 これに対して、日影側(右耳側)では、音像定位フィルタHARによりオーディオ信号に対する畳み込み処理が行われ、その結果得られた信号に対して日向側HRTF差分フィルタによる畳み込み処理が行われる。
 さらに、日向側HRTF差分フィルタによる畳み込み処理により得られた信号に対して、方向Bについて予め求められたノッチ形成フィルタNxによるフィルタ処理が行われ、その結果得られた信号に基づいて音が再生される。
 例えば図5の曲線L32に示した周波数特性における高域部分の図5中、下に突のくぼみ(谷)の部分がノッチ(高域ノッチ)と呼ばれている。
 ノッチ形成フィルタNxによるフィルタ処理を行うと、方向Bの日影側の伝達特性、つまり方向Bの日影側HRTFの周波数特性が有する高域ノッチが形成される。
 以上のような図7に示した処理を行ったところ、良好な定位感が得られることが分かった。
 図7に示す例では、方向Bに対する日影側HRTFの特性を精度よく再現しているわけではないが、方向Aとの音色差として日向側のものを日向側と日影側、つまり両耳に与えたことになる。
 換言すれば、方向Aにおける両耳間の周波数特性の差はそのままで、さらに日向側に方向BのHRTF特性を与えるようにすれば、方向Bの定位感が得られることになる。このことは、日向側HRTFの音色的要素が定位感に重要であることを示しているといえる。
 以上のような結果から、方向Bの音像定位を実現する場合、図8に示すように信号処理を簡略化することができる。なお、図8において図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図8では、文字「HXB」は、方向Aに対する方向Bの日向側HRTF差分フィルタ、すなわち音像定位フィルタHBLと音像定位フィルタHALとの差分(HXB=HBL-HAL)を示している。
 したがって、この例では、まずオーディオ信号に対して日向側HRTF差分フィルタHXBによる畳み込み処理が行われ、その結果得られた信号に対してノッチ形成フィルタNxによるフィルタ処理が行われる。
 ここでは、ノッチ形成フィルタNxによるフィルタ処理までの処理が左右の各耳で共通の処理となっており、これにより信号処理量の低減が図られている。
 特に、日向側に対して日影側の高域ノッチを形成しても音像の定位感に影響が生じないことが本出願人により経験的に確認されているので、ノッチ形成フィルタNxによるフィルタ処理も左右の耳で共通の処理とされている。
 さらに、左耳側については、ノッチ形成フィルタNxによるフィルタ処理で得られた信号と、左耳用のHRTF、すなわち音像定位フィルタHALとの畳み込み処理が行われ、その結果得られた信号に基づいて音が再生される。
 同様に、右耳側については、ノッチ形成フィルタNxによるフィルタ処理で得られた信号と、右耳用のHRTF、すなわち音像定位フィルタHARとの畳み込み処理が行われ、その結果得られた信号に基づいて音が再生される。
 以上のように日向側HRTF差分フィルタHXBによる畳み込み処理と、ノッチ形成フィルタNxによるフィルタ処理を左右の耳で共通化することにより、信号処理量を低減させることができる。
 すなわち、所定の方向に対する音像定位フィルタが得られている場合において、その所定の方向を含むコーン状の混同の円周上にある任意の位置の方向の音像定位フィルタを簡単に得ることができる。
 図8に示したように一部の処理を共通とすれば、例えば図9に示すように上述の方向Aを含む、コーン状の混同の同一円周上にある互いに異なるN個の各位置を示す方向に同時に音像を定位させるフィルタを構成することができる。
 図9に示す例では、コーン状の混同の同一円周上にある互いに異なるN個の各位置を示す方向V1乃至方向VNのそれぞれに音像を定位させようとする音のオーディオ信号が、オーディオ信号SG1乃至オーディオ信号SGNとされている。
 また、方向Aに対する各方向V1乃至方向VNについての日向側HRTF差分フィルタが、日向側HRTF差分フィルタHX1乃至日向側HRTF差分フィルタHXNとされている。
 さらに、各方向V1乃至方向VNについての日影側のノッチ形成フィルタが、それぞれノッチ形成フィルタNx1乃至ノッチ形成フィルタNxNとされている。
 したがって、この例では、まずは方向Vn(但し、1≦n≦N)ごとに、日向側HRTF差分フィルタHXnによりオーディオ信号SGnに対する畳み込み処理、すなわちオーディオ信号SGnと、日向側HRTF差分フィルタHXnとの畳み込み処理が行われる。
 さらに、それらの方向Vn(但し、1≦n≦N)ごとの畳み込み処理により得られた信号に対して、方向Vnのノッチ形成フィルタNxnによるフィルタ処理が行われ、それらのフィルタ処理により得られた信号が加算されて加算信号が生成される。
 そして、そのようにして得られた加算信号に対して、日向側と日影側とでそれぞれ音像定位フィルタ(HRTF)との畳み込み処理が行われる。
 具体的には、日向側(左耳側)では加算信号と、音像定位フィルタHAL、すなわち日向側HRTFとの畳み込み処理が行われ、その結果得られた信号に基づいて音が再生され、その音がユーザU11の左耳に提示される。
 同様に、日影側(右耳側)では加算信号と、音像定位フィルタHAR、すなわち日影側HRTFとの畳み込み処理が行われ、その結果得られた信号に基づいて音が再生され、その音がユーザU11の右耳に提示される。
 このようにすることで、各方向Vnについて、本来は日向側と日影側とでそれぞれ差分フィルタによる畳み込み処理が必要であったのに対して、この例では差分フィルタでの畳み込み処理を日向側と日影側で共通化し、1度の処理とすることができる。すなわち、信号処理量を低減させることができる。
 しかも、本来であれば方向Vnごとに各耳について方向Aに対応するHRTFとの畳み込み処理が必要であったが、この例では方向Vnがいくつであっても、それらの全方向Vnの処理が共通で行われるため、さらに信号処理量を低減させることができる。
 さらに出願人が実験したところ、日向側HRTF差分フィルタHXnは可聴帯域全域を対象とせずとも、その効果が十分に得られることが分かった。すなわち、日向側HRTF差分フィルタHXnによる畳み込み処理は、例えば大よそ10kHz以下の周波数帯域を対象として処理を行えばよく、そのようにすることで信号処理量をさらに低減させることができる。
 また、日向側HRTF差分フィルタHXnは、FIR(Finite Impulse Response)型のフィルタとしてもよいし、簡易的にIIR(Infinite Impulse Response)型のフィルタとしてもよい。
〈信号処理装置の構成例〉
 続いて、以上において説明した本技術を適用した信号処理装置について説明する。
 図10は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
 図10に示す信号処理装置11は、畳み込み処理部21-1乃至畳み込み処理部21-N、ノッチ形成部22-1乃至ノッチ形成部22-N、加算部23、左耳側畳み込み処理部24、および右耳側畳み込み処理部25を有している。
 この信号処理装置11では、図9を参照して説明した例と同様に、受聴位置、つまりユーザの頭部位置を頂点とするコーン状の混同の同一円周上にある、互いに異なるN個の各位置(方向)に同時に音像を定位させるためのヘッドホン再生信号が生成される。
 畳み込み処理部21-1乃至畳み込み処理部21-Nには、方向V1乃至方向VNに音像を定位させようとするオーディオ信号SG1乃至オーディオ信号SGNが供給される。
 なお、以下、畳み込み処理部21-1乃至畳み込み処理部21-Nを特に区別する必要のない場合、単に畳み込み処理部21とも称することとする。
 また、畳み込み処理部21-n(但し、1≦n≦N)には、方向V1乃至方向VNのうちの所定の1つの方向Vmの日向側HRTFと、方向Vnの日向側HRTFとの差分の特性を付加するための日向側HRTF差分フィルタHXnが予め保持されている。すなわち、日向側HRTF差分フィルタHXnは、方向Vmに対する方向Vnの日向側の差分フィルタである。
 畳み込み処理部21-n(但し、1≦n≦N)は、日向側HRTF差分フィルタHXnにより、供給されたオーディオ信号SGnに対する畳み込み処理(フィルタ処理)を行い、その結果得られたオーディオ信号SGn’をノッチ形成部22-nに供給する。すなわち、オーディオ信号SGnと日向側HRTF差分フィルタHXnとの畳み込み処理が行われる。
 なお、以下、オーディオ信号SG1乃至オーディオ信号SGNを特に区別する必要のない場合、単にオーディオ信号SGとも称し、オーディオ信号SG1’乃至オーディオ信号SGN’を特に区別する必要のない場合、単にオーディオ信号SG’とも称する。
 また、以下、日向側HRTF差分フィルタHX1乃至日向側HRTF差分フィルタHXNを特に区別する必要のない場合、単に日向側HRTF差分フィルタHXとも称する。
 ノッチ形成部22-n(但し、1≦n≦N)には、方向Vnについての日影側の伝達特性、つまり方向Vnの日影側HRTFの周波数特性が有する高域ノッチを形成するためのノッチ形成フィルタNxnが予め保持されている。
 ノッチ形成部22-n(但し、1≦n≦N)は、畳み込み処理部21-nから供給されたオーディオ信号SGn’に対して、予め保持しているノッチ形成フィルタNxnに基づくフィルタ処理を行い、その結果得られたオーディオ信号SGn’’を加算部23に供給する。
 なお、以下、ノッチ形成部22-1乃至ノッチ形成部22-Nを特に区別する必要のない場合、単にノッチ形成部22とも称することとする。
 また、以下、オーディオ信号SG1’’乃至オーディオ信号SGN’’を特に区別する必要のない場合、単にオーディオ信号SG’’とも称し、ノッチ形成フィルタNx1乃至ノッチ形成フィルタNxNを特に区別する必要のない場合、単にノッチ形成フィルタNxとも称する。
 加算部23は、ノッチ形成部22-1乃至ノッチ形成部22-Nから供給されたオーディオ信号SG1’’乃至オーディオ信号SGN’’を加算して1つの加算信号とし、得られた加算信号を左耳側畳み込み処理部24および右耳側畳み込み処理部25に供給する。
 左耳側畳み込み処理部24は、加算部23から供給された加算信号と、予め保持している方向Vmの左耳用のHRTF、すなわち左耳用の音像定位フィルタとの畳み込み処理を行い、ユーザの左耳に提示する音を再生するための左耳用のヘッドホン再生信号を生成する。
 方向Vmの左耳用の音像定位フィルタは、上述したように、受聴位置であるユーザの頭部位置を頂点とするコーン状の混同の同一円周上にある方向Vmに対応する位置から、ユーザの左耳までの間の伝達特性を付加するためのHRTFである。
 左耳側畳み込み処理部24は、得られた左耳用のヘッドホン再生信号を、図示せぬヘッドホンの左耳用のスピーカ(ドライバ)に出力する。
 右耳側畳み込み処理部25は、加算部23から供給された加算信号と、予め保持している方向Vmの右耳用のHRTFとの畳み込み処理を行い、ユーザの右耳に提示する音を再生するための右耳用のヘッドホン再生信号を生成する。
 方向Vmの右耳用の音像定位フィルタは、受聴位置であるユーザの頭部位置を頂点とするコーン状の混同の同一円周上にある方向Vmに対応する位置から、ユーザの右耳までの間の伝達特性を付加するためのHRTFである。
 右耳側畳み込み処理部25は、得られた右耳用のヘッドホン再生信号を、図示せぬヘッドホンの右耳用のスピーカに出力する。
 左耳側畳み込み処理部24および右耳側畳み込み処理部25で行われる、HRTFを畳み込んでヘッドホン再生信号を生成する処理は、バイノーラル処理と呼ばれている。
 なお、ヘッドホン再生信号の出力先となる再生装置(デバイス)は、ヘッドホンに限らず、ユーザの耳に装着するものであれば、イヤホンなど、どのようなものであってもよい。また、信号処理装置11がヘッドホン等の内部に設けられているようにしてもよい。
〈再生処理の説明〉
 続いて、信号処理装置11の動作について説明する。すなわち、以下、図11のフローチャートを参照して、信号処理装置11による再生処理について説明する。
 ステップS11においてN個の各畳み込み処理部21は、供給されたオーディオ信号SGと、保持している日向側HRTF差分フィルタHXとを畳み込み、その結果得られたオーディオ信号SG’をノッチ形成部22に供給する。
 ステップS12においてN個の各ノッチ形成部22は、畳み込み処理部21から供給されたオーディオ信号SG’に対して、ノッチ形成フィルタNxによるフィルタ処理を行い、その結果得られたオーディオ信号SG’’を加算部23に供給する。
 ステップS13において加算部23は、N個の各ノッチ形成部22から供給されたオーディオ信号SG’’を加算する加算処理を行い、その結果得られた加算信号を左耳側畳み込み処理部24および右耳側畳み込み処理部25に供給する。
 ステップS14において左耳側畳み込み処理部24は、左耳側について畳み込み処理を行う。
 すなわち、左耳側畳み込み処理部24は、加算部23から供給された加算信号と、方向Vmの左耳用のHRTFとを畳み込み、左耳用のヘッドホン再生信号を得る。
 ステップS15において右耳側畳み込み処理部25は、右耳側について畳み込み処理を行う。
 すなわち、右耳側畳み込み処理部25は、加算部23から供給された加算信号と、方向Vmの右耳用のHRTFとを畳み込み、右耳用のヘッドホン再生信号を得る。
 このようにして左右の耳用のヘッドホン再生信号が得られると、左耳側畳み込み処理部24および右耳側畳み込み処理部25は、得られたヘッドホン再生信号を後段に出力して音を再生させ、再生処理は終了する。
 これにより、ヘッドホンでは、方向V1乃至方向VNの各方向から音が聞こえてくるかのような音の再生が実現される。
 以上のように信号処理装置11は、各方向についてのオーディオ信号に対して、日向側HRTF差分フィルタHXの畳み込みと高域ノッチの形成を行って、それらの処理により得られたオーディオ信号を加算する。また、信号処理装置11は、加算により得られた加算信号に対して方向VmのHRTFを畳み込み、ヘッドホン再生信号を生成する。
 このようにすることで、一部の処理を共通化することができ、信号処理量を低減させることができる。
〈第2の実施の形態〉
〈信号処理装置の構成例〉
 また、以上においてはヘッドホン再生を行う場合について説明したが、2以上のスピーカにより音を再生するようにしてもよい。
 そのような場合、例えば図9を参照して説明した処理の最終段、つまり音像定位フィルタ(HRTF)の畳み込みを行うバイノーラル処理後に、さらにクロストークキャンセル処理を行って、複数の各スピーカで音を再生するためのスピーカ再生信号を生成すればよい。
 すなわち、図9を参照して説明した例の最終段のバイノーラル処理を、バイノーラル処理およびクロストークキャンセル処理からなるトランスオーラル処理に置き換えればよい。
 例えば信号処理装置11における場合と同様に、方向V1乃至方向VNの各方向についての音を2つのスピーカで再生する場合、信号処理装置は図12に示すように構成される。
 なお、図12において図10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12に示す信号処理装置51は、畳み込み処理部21-1乃至畳み込み処理部21-N、ノッチ形成部22-1乃至ノッチ形成部22-N、加算部23、左耳側畳み込み処理部24、右耳側畳み込み処理部25、およびクロストークキャンセル処理部61を有している。
 信号処理装置51の構成は、新たにクロストークキャンセル処理部61が設けられた点で図10の信号処理装置11の構成と異なり、その他の点では信号処理装置11と同じ構成となっている。
 クロストークキャンセル処理部61は、左耳側畳み込み処理部24から供給されたヘッドホン再生信号と、右耳側畳み込み処理部25から供給されたヘッドホン再生信号とに基づいてクロストークキャンセル処理を行い、各スピーカのスピーカ再生信号を生成する。
 クロストークキャンセル処理部61は、スピーカ再生信号を各スピーカに出力し、それらのスピーカで音を再生させる。
 これにより、スピーカから出力される音を受聴するユーザに対して、あたかも方向V1乃至方向VNの各方向から音が聞こえてくるかのように感じさせることができる。
〈再生処理の説明〉
 続いて、信号処理装置51の動作について説明する。すなわち、以下、図13のフローチャートを参照して、信号処理装置51による再生処理について説明する。
 なお、ステップS41乃至ステップS45の処理は、図11のステップS11乃至ステップS15の処理と同様であるので、その説明は省略する。
 但し、ステップS44およびステップS45で得られた左耳用および右耳用のヘッドホン再生信号は、左耳側畳み込み処理部24および右耳側畳み込み処理部25からクロストークキャンセル処理部61へと供給される。
 ステップS46においてクロストークキャンセル処理部61は、左耳側畳み込み処理部24および右耳側畳み込み処理部25から供給されたヘッドホン再生信号に基づいて、クロストークキャンセル処理を行い、各スピーカのスピーカ再生信号を生成する。
 このようにしてスピーカ再生信号が得られると、クロストークキャンセル処理部61は、スピーカ再生信号を各スピーカに出力して音を再生させ、再生処理は終了する。
 以上のようにして信号処理装置51は、日向側HRTF差分フィルタHXの畳み込みとノッチ形成、加算処理、および方向VmのHRTFの畳み込みにより得られたヘッドホン再生信号に基づいてクロストークキャンセル処理を行い、スピーカ再生信号を生成する。このようにすることでも、信号処理装置11における場合と同様に、信号処理量を低減させることができる。
〈第3の実施の形態〉
〈信号処理装置の構成例〉
 ところで、近年では音響ビームを壁で反射させることにより、その反射方向に音像を形成する技術が提案されているが、本技術はそのような技術にも適用することができる。
 例えば図14に示すように受聴者であるユーザU21の右前方に壁WR11が配置されており、音響ビーム生成器AM11から出力した音響ビームを壁WR11で反射させて、音響ビームに基づく音をユーザU21に提示することとする。
 いま、例えば所定音源の音を再生するオーディオ信号に基づいて、音響ビーム生成器AM11から壁WR11に向けて音響ビームを出力すると、その音響ビームは壁WR11で反射されて受聴位置にいるユーザU21の耳へと到達する。
 この場合、ユーザU21からすると、ユーザU21から見て壁WR11のある方向(以下、方向Cとも称する)から音響ビームが到来する。
 したがって、ユーザU21には方向Cから音が聞こえているように感じることになる。つまり、音響ビームに基づく音の音像は、ユーザU21から見て方向C側に定位している。
 ここで、壁WR11における音響ビームの反射点を点P11とし、ユーザU21からの距離が、ユーザU21から点P11までの距離と等距離となる点を点P12とする。換言すれば、点P11と点P12はユーザU21から見たコーン状の混同の同一円周上に位置している。以下、ユーザU21から見た点P12の方向を方向Dとも称することとする。
 音響ビームの反射点である点P11と、点P12とはコーン状の混同の同一円周上に位置している。したがって、本技術を利用して音響ビーム生成器AM11から音響ビームを出力すれば、物理的には方向Cから音響ビーム(反射音)が到来するが、聴覚的には方向Dから音響ビームが到来しているかのように感じさせることが可能である。
 そのような場合、方向Cについての日向側HRTF(音像定位フィルタ)と、方向Dについての日向側HRTFとの差分である日向側HRTF差分フィルタ、および方向Dについての日影側の高域ノッチを形成するノッチ形成フィルタNxを用意すればよい。
 この例では、ユーザU21の右耳側が方向Cについての日向側となっている。したがって、方向Cについての日向側HRTFは、音響ビームが音響ビーム生成器AM11から点P11で反射されてユーザU21の右耳に到達する場合における、音響ビーム生成器AM11からユーザU21の右耳までの間の伝達特性を付加するための音像定位フィルタである。
 また、方向Dについての日向側HRTFは、点P12からユーザU21の右耳までの間の伝達特性を付加するための音像定位フィルタである。
 再生時には、方向Cに対する方向Dの日向側HRTF差分フィルタと、再生しようとする音源の音のオーディオ信号との畳み込みが行われ、その結果得られた信号に対して、ノッチ形成フィルタNxによるフィルタ処理が行われる。
 これらの処理により、方向Cと方向Dの周波数特性の差分の特性が付加され、さらに高域ノッチが形成された再生信号が得られる。
 音響ビーム生成器AM11は、このようにして得られた再生信号に基づいて音響ビームを生成し、その音響ビームを壁WR11の点P11へと向けて出力する。
 すると、音響ビーム生成器AM11から出力された音響ビームは、壁WR11の点P11において反射され、ユーザU21へと到達する。
 このとき、実際には方向CからユーザU21へと音響ビームが伝搬されてくるが、ユーザU21には方向Dから音が聞こえているように感じる。すなわち、聴感として方向Dの定位感を得ることができる。
 例えばユーザU21から見た方向Dの位置に音響ビーム生成器AM11等を配置することが可能であれば、単純にその位置からユーザU21に向けて音響ビームを出力すればよい。しかし、所望の位置に音響ビーム生成器AM11を配置することができない場合もある。
 本技術は、そのような場合においても、音響ビーム生成器AM11の配置位置を変えることなく、日向側HRTF差分フィルタによる畳み込み処理と、ノッチ形成フィルタによるフィルタ処理という簡単な処理で、任意の方向への定位感を実現することができる。
 以上のように壁等で音響ビームを反射させて所望の方向への定位感を実現する信号処理装置は、例えば図15に示すように構成される。
 図15に示す信号処理装置91は、畳み込み処理部101、ノッチ形成部102、および音響ビーム生成部103を有している。
 この信号処理装置91では、図14を参照して説明した例と同様に、音響ビームを壁で反射させるなどして、受聴者であるユーザから見て所定の方向Cから音響ビームがユーザに到来するようになされる。
 また、音像を定位させたい方向Dが予め定められており、ユーザから見て方向Cにある位置と方向Dにある位置とは、受聴位置、つまりユーザの頭部位置を頂点とするコーン状の混同の同一円周上にあるものとする。
 畳み込み処理部101には、方向Cの日向側HRTFと、方向Dの日向側HRTFとの差分の特性を付加する日向側HRTF差分フィルタが予め保持されている。また、畳み込み処理部101には、方向Dに音像を定位させようとするオーディオ信号SGが供給される。
 畳み込み処理部101は、供給されたオーディオ信号SGと、保持している日向側HRTF差分フィルタとを畳み込み、その結果得られたオーディオ信号SG’をノッチ形成部102に供給する。
 ノッチ形成部102には、方向Dについての日影側の高域ノッチを形成するためのノッチ形成フィルタNxが予め保持されている。
 ノッチ形成部102は、畳み込み処理部101から供給されたオーディオ信号SG’に対して、予め保持しているノッチ形成フィルタNxに基づくフィルタ処理を行い、その結果得られたオーディオ信号SG’’を音響ビーム生成部103に供給する。
 音響ビーム生成部103は、例えば超音波スピーカなどからなり、ノッチ形成部102から供給されたオーディオ信号SG’’に基づいて、所定の方向に指向性を有する音響ビームを出力する。すなわち、音響ビーム生成部103は、指向性を有する音を出力する。
〈再生処理の説明〉
 次に、信号処理装置91の動作について説明する。すなわち、以下、図16のフローチャートを参照して、信号処理装置91による再生処理について説明する。
 ステップS71において畳み込み処理部101は、供給されたオーディオ信号SGと、保持している方向Cに対する方向Dの日向側HRTF差分フィルタとを畳み込み、その結果得られたオーディオ信号SG’をノッチ形成部102に供給する。
 ステップS72においてノッチ形成部102は、畳み込み処理部101から供給されたオーディオ信号SG’に対して、方向Dの日影側のノッチ形成フィルタNxに基づくフィルタ処理を行い、得られたオーディオ信号SG’’を音響ビーム生成部103に供給する。
 ステップS73において音響ビーム生成部103は、ノッチ形成部102から供給されたオーディオ信号SG’’に基づいて、所定の方向に指向性を有する音響ビームを生成し、出力する。換言すれば、音響ビーム生成部103は、音響ビームが壁等で反射されて受聴位置にいるユーザへと到達するように、音響ビームを所定の方向に向けて出力する。
 これにより、物理的には方向Cから音響ビームがユーザに到来するが、ユーザに対して方向Dから音が聞こえてくるように感じさせる音声再生が実現される。
 以上のようにして信号処理装置91は、オーディオ信号に対して日向側HRTF差分フィルタの畳み込みとノッチ形成を行って、それらの処理により得られたオーディオ信号に基づいて音響ビームを生成し、出力する。このようにすることで、簡単に任意の方向への定位感を実現することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行う第1の畳み込み処理部と、
 前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行うノッチ形成部と
 を備える信号処理装置。
(2)
 前記差分フィルタは、前記第1の位置から、前記受聴位置にいるユーザの前記第1の位置により近い側の耳までの間の伝達特性と、前記第2の位置から、前記ユーザの前記第2の位置により近い側の耳までの間の伝達特性との差分の特性を付加するフィルタである
 (1)に記載の信号処理装置。
(3)
 前記第1の位置から前記受聴位置までの間の伝達特性を付加する音像定位フィルタにより、前記フィルタ処理で得られた信号に対する畳み込みを行う第2の畳み込み処理部をさらに備える
 (1)または(2)に記載の信号処理装置。
(4)
 前記円周上の互いに異なる複数の前記第2の位置ごとに得られた信号であって、前記差分フィルタによる前記畳み込み、および前記ノッチ形成フィルタによる前記フィルタ処理により得られた信号を加算する加算部をさらに備え、
 前記第2の畳み込み処理部は、前記音像定位フィルタにより、前記加算により得られた信号に対する畳み込みを行う
 (3)に記載の信号処理装置。
(5)
 前記第1の位置から前記受聴位置にいるユーザの左耳までの間の伝達特性を付加する左耳用音像定位フィルタにより、前記フィルタ処理で得られた信号に対する畳み込みを行う左耳側畳み込み処理部と、
 前記第1の位置から前記ユーザの右耳までの間の伝達特性を付加する右耳用音像定位フィルタにより、前記フィルタ処理で得られた信号に対する畳み込みを行う右耳側畳み込み処理部と
 をさらに備える(1)または(2)に記載の信号処理装置。
(6)
 前記ノッチ形成フィルタは、前記第2の位置から、前記ユーザの前記第2の位置により遠い側の耳までの間の伝達特性の高域ノッチを形成するフィルタである
 (5)に記載の信号処理装置。
(7)
 前記円周上の互いに異なる複数の前記第2の位置ごとに得られた信号であって、前記差分フィルタによる前記畳み込み、および前記ノッチ形成フィルタによる前記フィルタ処理により得られた信号を加算する加算部をさらに備え、
 前記左耳側畳み込み処理部は、前記左耳用音像定位フィルタにより、前記加算により得られた信号に対する畳み込みを行い、
 前記右耳側畳み込み処理部は、前記右耳用音像定位フィルタにより、前記加算により得られた信号に対する畳み込みを行う
 (6)に記載の信号処理装置。
(8)
 前記左耳用音像定位フィルタによる畳み込みで得られた信号と、前記右耳用音像定位フィルタによる畳み込みで得られた信号とに基づいてクロストークキャンセル処理を行うクロストークキャンセル処理部をさらに備える
 (5)乃至(7)の何れか一項に記載の信号処理装置。
(9)
 前記フィルタ処理により得られた信号に基づいて、指向性を有する音響ビームを出力する音響ビーム生成部をさらに備える
 (1)または(2)に記載の信号処理装置。
(10)
 前記音響ビーム生成部は、前記音響ビームが反射されて前記受聴位置へと到達するように、所定の方向に向けて前記音響ビームを出力する
 (9)に記載の信号処理装置。
(11)
 信号処理装置が、
 コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行い、
 前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行う
 信号処理方法。
(12)
 コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行い、
 前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行う
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 信号処理装置, 21-1乃至21-N,21 畳み込み処理部, 22-1乃至22-N,22 ノッチ形成部, 23 加算部, 24 左耳側畳み込み処理部, 25 右耳側畳み込み処理部, 61 クロストークキャンセル処理部, 101 畳み込み処理部, 102 ノッチ形成部, 103 音響ビーム生成部

Claims (12)

  1.  コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行う第1の畳み込み処理部と、
     前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行うノッチ形成部と
     を備える信号処理装置。
  2.  前記差分フィルタは、前記第1の位置から、前記受聴位置にいるユーザの前記第1の位置により近い側の耳までの間の伝達特性と、前記第2の位置から、前記ユーザの前記第2の位置により近い側の耳までの間の伝達特性との差分の特性を付加するフィルタである
     請求項1に記載の信号処理装置。
  3.  前記第1の位置から前記受聴位置までの間の伝達特性を付加する音像定位フィルタにより、前記フィルタ処理で得られた信号に対する畳み込みを行う第2の畳み込み処理部をさらに備える
     請求項1に記載の信号処理装置。
  4.  前記円周上の互いに異なる複数の前記第2の位置ごとに得られた信号であって、前記差分フィルタによる前記畳み込み、および前記ノッチ形成フィルタによる前記フィルタ処理により得られた信号を加算する加算部をさらに備え、
     前記第2の畳み込み処理部は、前記音像定位フィルタにより、前記加算により得られた信号に対する畳み込みを行う
     請求項3に記載の信号処理装置。
  5.  前記第1の位置から前記受聴位置にいるユーザの左耳までの間の伝達特性を付加する左耳用音像定位フィルタにより、前記フィルタ処理で得られた信号に対する畳み込みを行う左耳側畳み込み処理部と、
     前記第1の位置から前記ユーザの右耳までの間の伝達特性を付加する右耳用音像定位フィルタにより、前記フィルタ処理で得られた信号に対する畳み込みを行う右耳側畳み込み処理部と
     をさらに備える請求項1に記載の信号処理装置。
  6.  前記ノッチ形成フィルタは、前記第2の位置から、前記ユーザの前記第2の位置により遠い側の耳までの間の伝達特性の高域ノッチを形成するフィルタである
     請求項5に記載の信号処理装置。
  7.  前記円周上の互いに異なる複数の前記第2の位置ごとに得られた信号であって、前記差分フィルタによる前記畳み込み、および前記ノッチ形成フィルタによる前記フィルタ処理により得られた信号を加算する加算部をさらに備え、
     前記左耳側畳み込み処理部は、前記左耳用音像定位フィルタにより、前記加算により得られた信号に対する畳み込みを行い、
     前記右耳側畳み込み処理部は、前記右耳用音像定位フィルタにより、前記加算により得られた信号に対する畳み込みを行う
     請求項6に記載の信号処理装置。
  8.  前記左耳用音像定位フィルタによる畳み込みで得られた信号と、前記右耳用音像定位フィルタによる畳み込みで得られた信号とに基づいてクロストークキャンセル処理を行うクロストークキャンセル処理部をさらに備える
     請求項5に記載の信号処理装置。
  9.  前記フィルタ処理により得られた信号に基づいて、指向性を有する音響ビームを出力する音響ビーム生成部をさらに備える
     請求項1に記載の信号処理装置。
  10.  前記音響ビーム生成部は、前記音響ビームが反射されて前記受聴位置へと到達するように、所定の方向に向けて前記音響ビームを出力する
     請求項9に記載の信号処理装置。
  11.  信号処理装置が、
     コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行い、
     前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行う
     信号処理方法。
  12.  コーン状の混同の円周上にある第1の位置から受聴位置までの間の伝達特性と、前記円周上にある第2の位置から前記受聴位置までの間の伝達特性との差分の特性を付加する差分フィルタによりオーディオ信号に対する畳み込みを行い、
     前記畳み込みにより得られた信号に対して、高域ノッチを形成するノッチ形成フィルタによるフィルタ処理を行う
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2020/027776 2019-08-02 2020-07-17 信号処理装置および方法、並びにプログラム WO2021024752A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/629,493 US20220295213A1 (en) 2019-08-02 2020-07-17 Signal processing device, signal processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-143031 2019-08-02
JP2019143031 2019-08-02

Publications (1)

Publication Number Publication Date
WO2021024752A1 true WO2021024752A1 (ja) 2021-02-11

Family

ID=74504073

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/027776 WO2021024752A1 (ja) 2019-08-02 2020-07-17 信号処理装置および方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20220295213A1 (ja)
WO (1) WO2021024752A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258497A (ja) * 2009-04-21 2010-11-11 Sony Corp 音響処理装置、音像定位処理方法および音像定位処理プログラム
JP2013535894A (ja) * 2010-07-22 2013-09-12 コーニンクレッカ フィリップス エヌ ヴェ 音再生のためのシステム及び方法
US9173032B2 (en) * 2009-05-20 2015-10-27 The United States Of America As Represented By The Secretary Of The Air Force Methods of using head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
JP2015211418A (ja) * 2014-04-30 2015-11-24 ソニー株式会社 音響信号処理装置、音響信号処理方法、および、プログラム
WO2018034158A1 (ja) * 2016-08-16 2018-02-22 ソニー株式会社 音響信号処理装置、音響信号処理方法、および、プログラム
JP2019115042A (ja) * 2017-12-21 2019-07-11 ガウディ・オーディオ・ラボ・インコーポレイテッド 位相応答特性を利用するバイノーラルレンダリングのためのオーディオ信号処理方法及び装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4627880B2 (ja) * 1997-09-16 2011-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用
US8428269B1 (en) * 2009-05-20 2013-04-23 The United States Of America As Represented By The Secretary Of The Air Force Head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
US10142761B2 (en) * 2014-03-06 2018-11-27 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258497A (ja) * 2009-04-21 2010-11-11 Sony Corp 音響処理装置、音像定位処理方法および音像定位処理プログラム
US9173032B2 (en) * 2009-05-20 2015-10-27 The United States Of America As Represented By The Secretary Of The Air Force Methods of using head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
JP2013535894A (ja) * 2010-07-22 2013-09-12 コーニンクレッカ フィリップス エヌ ヴェ 音再生のためのシステム及び方法
JP2015211418A (ja) * 2014-04-30 2015-11-24 ソニー株式会社 音響信号処理装置、音響信号処理方法、および、プログラム
WO2018034158A1 (ja) * 2016-08-16 2018-02-22 ソニー株式会社 音響信号処理装置、音響信号処理方法、および、プログラム
JP2019115042A (ja) * 2017-12-21 2019-07-11 ガウディ・オーディオ・ラボ・インコーポレイテッド 位相応答特性を利用するバイノーラルレンダリングのためのオーディオ信号処理方法及び装置

Also Published As

Publication number Publication date
US20220295213A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
KR100619082B1 (ko) 와이드 모노 사운드 재생 방법 및 시스템
NL1031240C2 (nl) Werkwijze en inrichting voor genereren van stereogeluid voor hoofdtelefoons met twee kanalen.
CA2430403C (en) Sound image control system
US6937737B2 (en) Multi-channel audio surround sound from front located loudspeakers
CN101040565B (zh) 用于移动立体声内容的改善的头相关传递函数
KR100416757B1 (ko) 위치 조절이 가능한 가상 음상을 이용한 스피커 재생용 다채널오디오 재생 장치 및 방법
JP5448451B2 (ja) 音像定位装置、音像定位システム、音像定位方法、プログラム、及び集積回路
US20050265558A1 (en) Method and circuit for enhancement of stereo audio reproduction
KR20050119605A (ko) 7.1 채널 오디오 재생 방법 및 장치
JPH10509565A (ja) 録音及び再生システム
JP2002159100A (ja) 2チャネル・ステレオ・フォーマットの左及び右のチャネル入力信号を左及び右のチャネル出力信号に変換する方法及び信号処理装置
JP2000050400A (ja) 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2009077379A (ja) 立体音響再生装置、立体音響再生方法及びコンピュータプログラム
EP2229012B1 (en) Device, method, program, and system for canceling crosstalk when reproducing sound through plurality of speakers arranged around listener
JP2010068023A (ja) バーチャルサラウンド音響装置
KR100873639B1 (ko) 헤드폰에서 출력되는 음상을 외재화하는 장치 및 방법.
US10440495B2 (en) Virtual localization of sound
KR20080079502A (ko) 입체음향 출력장치 및 그의 초기반사음 생성방법
JP4951985B2 (ja) 音声信号処理装置、音声信号処理システム、プログラム
WO2021024752A1 (ja) 信号処理装置および方法、並びにプログラム
JP2000333297A (ja) 立体音生成装置、立体音生成方法及び立体音を記録した媒体
JP2007202020A (ja) 音声信号処理装置、音声信号処理方法、プログラム
US11373662B2 (en) Audio system height channel up-mixing
US11470435B2 (en) Method and device for processing audio signals using 2-channel stereo speaker
JP2008011099A (ja) ヘッドフォン音響再生システム、ヘッドフォン装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20850942

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20850942

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP