WO2019181599A1 - 処理装置、処理方法、及びプログラム - Google Patents

処理装置、処理方法、及びプログラム Download PDF

Info

Publication number
WO2019181599A1
WO2019181599A1 PCT/JP2019/009619 JP2019009619W WO2019181599A1 WO 2019181599 A1 WO2019181599 A1 WO 2019181599A1 JP 2019009619 W JP2019009619 W JP 2019009619W WO 2019181599 A1 WO2019181599 A1 WO 2019181599A1
Authority
WO
WIPO (PCT)
Prior art keywords
time difference
sound
listener
measurement
signal
Prior art date
Application number
PCT/JP2019/009619
Other languages
English (en)
French (fr)
Inventor
優美 藤井
村田 寿子
正也 小西
敬洋 下条
邦明 高地
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2019181599A1 publication Critical patent/WO2019181599A1/ja
Priority to US17/016,674 priority Critical patent/US11297427B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present disclosure relates to a processing device, a processing method, and a program.
  • Patent Document 1 discloses a method using a listener's head related transfer function HRTF (Head Related Transfer Function) as a method of localizing a sound image outside the head. Further, it is known that the HRTF has a large individual difference, and the change in the HRTF due to the difference in the pinna shape is particularly remarkable.
  • HRTF Head Related Transfer Function
  • transfer characteristics spatial acoustic transfer characteristics
  • HRTF spatial acoustic transfer characteristics
  • the microphone input terminal is a monaural input instead of a stereo input. Furthermore, the microphone input terminal may be a monaural input even in a personal computer.
  • the microphone input terminal When measuring the spatial acoustic transmission characteristics from the speaker to the left and right ears using a mobile terminal, etc., if the distance from the speaker to the left and right ears is different, the time required for the acoustic signal to reach the left and right ears from the speaker Produces a difference (time difference). Since a monaural microphone input terminal cannot be recorded simultaneously with microphones installed on the left and right ears, it is not possible to obtain a time difference. Therefore, with a monaural microphone input terminal, it has been difficult to obtain a spatial acoustic transmission characteristic that reflects a time difference between arrival times at the left and right ears.
  • Patent Document 2 discloses a sound field reproduction device capable of appropriately measuring transfer characteristics even in the case of monaural microphone input.
  • This sound field reproduction device includes a microphone unit having left and right microphones, a monaural input terminal, and a switch for switching the output of the microphone unit.
  • the processing device calculates the time difference between the sound arrival times from the speakers to the left and right microphones based on the first to third collected sound signals.
  • the processing device calculates a transfer characteristic reflecting a time difference based on the first and second sound collection signals.
  • the sound image is localized out of the head by giving four transfer characteristics from the stereo speaker to the ear.
  • it is necessary to perform measurement with a speaker placed in front of the listener and measurement with a speaker placed in front of the right.
  • Patent Document 2 it is necessary to perform measurement three times in order to measure the first to third collected sound signals for one speaker position. In order to obtain the first to third collected sound signals for the left and right speakers, it is necessary to perform a total of six measurements.
  • the present disclosure has been made in view of the above points, and an object thereof is to provide a processing device, a processing method, and a program capable of easily measuring transfer characteristics.
  • the processing device is a processing device that processes a sound collection signal obtained by collecting sounds output from a sound source with left and right microphones attached to the listener, In order to perform characteristic measurement in a state where the sound source is arranged in a direction inclined by an angle ⁇ from the front front, the measurement signal generation unit that generates a measurement signal output from the sound source and the left and right microphones collect the sound.
  • the processing method is a processing method in a processing device that processes a sound collection signal obtained by collecting sound output from a sound source with left and right microphones attached to a listener,
  • the processing device performs characteristic measurement by outputting a measurement signal to the sound source disposed in a direction inclined by an angle ⁇ from the front front of the listener, the processing device includes a monaural input terminal, and the monaural input
  • a switch is provided between the terminal and the left and right microphones.
  • the switch includes only the first sound pickup signal collected from only the left microphone and the right microphone.
  • the input to the monaural input terminal is switched so that each of the collected second sound pickup signals is input to the monaural input terminal, and the processing method includes the step of acquiring the interaural distance of the listener.
  • Receiving Based on the step of obtaining the time difference of the arrival time from the sound source arranged in front of the person to the left and right microphones as a front time difference, the angle ⁇ , the front time difference, and the distance between both ears A step of calculating an incident time difference, and applying a delay according to the incident time difference to the first and second sound pickup signals acquired in the characteristic measurement, thereby obtaining a transfer characteristic from the sound source to the left and right microphones. And a calculating step.
  • the program according to the present embodiment is a program that causes a computer to execute a processing method for processing a collected sound signal obtained by collecting sound with left and right microphones, and the computer performs an angle ⁇ from the front front of the listener.
  • the characteristic measurement is performed by outputting a measurement signal to a sound source arranged in a tilted direction, and the computer includes a monaural input terminal, and a switch is provided between the monaural input terminal and the left and right microphones.
  • the switch is provided with a monaural input of a first sound collection signal collected from only the left microphone and a second sound collection signal collected from only the right microphone, respectively.
  • the input to the monaural input terminal is switched so that the signal is input to the terminal, and the processing method includes a step of acquiring a distance between both ears of the listener and a front side of the listener.
  • An incident time difference is calculated based on the step of obtaining the time difference between arrival times from the sound source to the left and right microphones as a front time difference, the angle ⁇ , the front time difference, and the interaural distance.
  • the out-of-head localization processing according to the present embodiment performs out-of-head localization processing using spatial acoustic transmission characteristics and ear canal transmission characteristics.
  • the spatial acoustic transfer characteristic is a transfer characteristic from a sound source such as a speaker to the ear canal.
  • the ear canal transfer characteristic is a transfer characteristic from the headphone or earphone speaker unit to the eardrum.
  • spatial acoustic transfer characteristics in a state where headphones or earphones are not worn are measured, and out-of-head localization processing is realized using those measurement data.
  • the out-of-head localization processing is executed by a user terminal such as a personal computer, a smart phone, or a tablet PC.
  • the user terminal is an information processing apparatus having processing means such as a processor, storage means such as a memory and a hard disk, display means such as a liquid crystal monitor, and operation means such as a touch panel, buttons, a keyboard, and a mouse.
  • the user terminal may have a communication function for transmitting and receiving data. Further, output means (output unit) having headphones or earphones is connected to the user terminal.
  • a general-purpose processing apparatus having a monaural input terminal can be used.
  • FIG. 1 shows an out-of-head localization processing apparatus 100 that is an example of a sound field reproducing apparatus according to the present embodiment.
  • FIG. 1 is a block diagram of the out-of-head localization processing apparatus 100.
  • the out-of-head localization processing apparatus 100 reproduces the sound field for the listener U wearing the headphones 43. Therefore, the out-of-head localization processing apparatus 100 performs sound image localization processing on the Lch and Rch stereo input signals XL and XR.
  • the Lch and Rch stereo input signals XL and XR are analog audio playback signals output from a CD (Compact Disc) player or the like, or digital audio data such as mp3 (MPEG Audio Layer-3).
  • the out-of-head localization processing apparatus 100 is not limited to a physically single apparatus, and some processes may be performed by different apparatuses. For example, a part of the processing may be performed by an information processing device such as a smart phone, and the remaining processing may be performed by a DSP (Digital Signal Processor) built in the headphone 43 or the like.
  • DSP Digital Signal Processor
  • the out-of-head localization processing apparatus 100 includes an out-of-head localization processing unit 10, a filter unit 41, a filter unit 42, and headphones 43.
  • the out-of-head localization processing unit 10, the filter unit 41, and the filter unit 42 can be realized by a processor or the like.
  • the out-of-head localization processing unit 10 includes convolution operation units 11 to 12 and 21 to 22 and adders 24 and 25.
  • the convolution operation units 11 to 12 and 21 to 22 perform convolution processing using spatial acoustic transfer characteristics.
  • Stereo input signals XL and XR from a CD player or the like are input to the out-of-head localization processing unit 10.
  • Spatial acoustic transfer characteristics are set in the out-of-head localization processing unit 10.
  • the out-of-head localization processing unit 10 convolves a spatial acoustic transfer characteristic filter (hereinafter also referred to as a spatial acoustic filter) with respect to the stereo input signals XL and XR of each channel.
  • the spatial acoustic transfer characteristic may be a head-related transfer function HRTF measured with the head or auricle of the measurement subject, or may be a dummy head or a third-party head-related transfer function.
  • a set of four spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs as a spatial acoustic transfer function.
  • Data used for convolution in the convolution operation units 11, 12, 21, and 22 is a spatial acoustic filter.
  • a spatial acoustic filter is generated by cutting out the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs with a predetermined filter length.
  • Each of the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs is acquired in advance by an impulse response measurement or the like.
  • the listener U wears microphones on the left and right ears.
  • the left and right speakers arranged in front of the listener U output impulse sounds for impulse response measurement.
  • a measurement signal such as an impulse sound output from the speaker is collected by a microphone.
  • Spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs are acquired based on a sound collection signal from the microphone.
  • Spatial acoustic transmission characteristic Hls between the left speaker and the left microphone, spatial acoustic transmission characteristic Hlo between the left speaker and the right microphone, spatial acoustic transmission characteristic Hro between the right speaker and the left microphone, right speaker and right microphone The spatial acoustic transfer characteristic Hrs between the two is measured.
  • the convolution operation unit 11 convolves a spatial acoustic filter corresponding to the spatial acoustic transfer characteristic Hls with respect to the Lch stereo input signal XL.
  • the convolution operation unit 11 outputs the convolution operation data to the adder 24.
  • the convolution operation unit 21 convolves a spatial acoustic filter corresponding to the spatial acoustic transfer characteristic Hro with respect to the Rch stereo input signal XR.
  • the convolution operation unit 21 outputs the convolution operation data to the adder 24.
  • the adder 24 adds the two convolution calculation data and outputs the result to the filter unit 41.
  • the convolution operation unit 12 convolves a spatial acoustic filter corresponding to the spatial acoustic transfer characteristic Hlo with respect to the Lch stereo input signal XL.
  • the convolution operation unit 12 outputs the convolution operation data to the adder 25.
  • the convolution operation unit 22 convolves a spatial acoustic filter corresponding to the spatial acoustic transfer characteristic Hrs with respect to the Rch stereo input signal XR.
  • the convolution operation unit 22 outputs the convolution operation data to the adder 25.
  • the adder 25 adds the two convolution calculation data and outputs the result to the filter unit 42.
  • an inverse filter for canceling the headphone characteristic (characteristic between the headphone reproduction unit and the microphone) is set. Then, an inverse filter is convoluted with the reproduction signal (convolution operation signal) that has been processed by the out-of-head localization processing unit 10.
  • the filter unit 41 convolves an inverse filter with the Lch signal from the adder 24.
  • the filter unit 42 convolves an inverse filter with the Rch signal from the adder 25.
  • the reverse filter cancels the characteristics from the headphone unit to the microphone when the headphones 43 are attached.
  • the microphone may be placed anywhere from the ear canal entrance to the eardrum.
  • the inverse filter may be calculated from the measurement result of the characteristics of the listener U himself or may be measured by another listener or a dummy head.
  • the filter unit 41 outputs the processed Lch signal to the left unit 43L of the headphones 43.
  • the filter unit 42 outputs the processed Rch signal to the right unit 43R of the headphones 43.
  • the listener U is wearing headphones 43.
  • the headphone 43 outputs the Lch signal and the Rch signal toward the listener U. Thereby, the sound image localized outside the user U's head can be reproduced.
  • the out-of-head localization processing apparatus 100 performs out-of-head localization processing using a spatial acoustic filter corresponding to the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs and an inverse filter with headphone characteristics.
  • a spatial acoustic filter according to the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs and an inverse filter with headphone characteristics are collectively referred to as an out-of-head localization processing filter.
  • the out-of-head localization filter is composed of four spatial acoustic filters and two inverse filters. Then, the out-of-head localization processing apparatus 100 performs the out-of-head localization processing by performing convolution operation processing on the stereo reproduction signal using a total of six out-of-head localization filters.
  • the measuring device 200 includes a microphone unit 2, a stereo speaker 5, a processing device 210, and a switch 7.
  • the processing device 210 includes a monaural input terminal 8 and an audio output terminal 9.
  • the switch 7 has a switch 7a and an adder 7b.
  • the processing device 210 is an information processing device such as a personal computer, a smart phone, or a tablet PC.
  • the processing device 210 performs measurement by executing a program stored in the memory 61 or the like.
  • the processing device 210 includes a memory 61 that stores a collected sound signal, an operation unit 62 that receives an operation of the listener U, and a processing unit 63 that processes each signal.
  • the operation unit 62 is, for example, a touch panel.
  • the processing device 210 executes an application program (application), it generates an impulse signal and starts measuring transfer characteristics.
  • the processing device 210 may be the same device as the out-of-head localization processing device 100 shown in FIG. 1 or may be a different device.
  • the processing device 210 stores the measured transfer characteristics in the memory 61 or the like.
  • the processing device 210 transmits a transfer characteristic (transfer function) to the out-of-head localization processing device 100 by wired communication or wireless communication.
  • the measurement signal is not limited to the impulse signal, and other signals such as a TSP (Time Stretched Pulse) signal and an M-sequence signal may be used.
  • TSP Time Stretched Pulse
  • the left speaker 5L and the right speaker 5R are installed in front of the listener U.
  • the left speaker 5L and the right speaker 5R are arranged symmetrically.
  • the stereo speaker 5 including the left speaker 5L and the right speaker 5R is connected to the processing device 210 via the audio output terminal 9. Since the audio output terminal 9 is a stereo output terminal, it is connected to the left speaker 5L and the right speaker 5R. However, the audio output terminal 9 may be a monaural output terminal. In this case, the audio output terminal 9 is connected to one speaker.
  • the speaker is changed from the left front position of the listener U (that is, the position of the left speaker 5L in FIG. 2) to the right front position (that is, the position of the right speaker 5R in FIG. 2). And the transmission characteristic from the right speaker can be measured.
  • the monaural input terminal 8 and the audio output terminal 9 may be a common input / output terminal.
  • audio can be input / output by connecting a three-pole or four-pole plug.
  • the processing device 210 may output a measurement signal to the speaker unit 5 by wireless communication such as Bluetooth (registered trademark).
  • the processing device 210 generates an impulse signal output from each of the left speaker 5L and the right speaker 5R. That is, the measuring apparatus 200 measures the transfer characteristic Hls from the left speaker 5L to the left microphone 2L and the transfer characteristic Hlo from the right speaker 5R to the right microphone 2R.
  • the left speaker 5L is arranged on the front left side of the listener U and the right speaker 5R is arranged on the front right side.
  • the arrangement of the speakers may be at an arbitrary position, and is not limited to this arrangement. Further, the number of speakers arranged may be one or more than two.
  • a microphone 2L for sound collection is installed at the entrance to the ear canal of the left ear 3L of the listener U or the eardrum position.
  • a microphone 2R for sound collection is installed at the entrance to the ear canal of the right ear 3R of the listener U or the eardrum position.
  • the listener U may be a person or a dummy head. Therefore, in this embodiment, the listener U is a concept including not only a person but also a dummy head.
  • the microphone unit 2 having the left microphone 2L and the right microphone 2R is connected to the switch 7.
  • the switch 7 may be built in the microphone unit 2.
  • the switch 7 is connected to a monaural input terminal 8 provided in the processing device 210 via a cable. Therefore, the left microphone 2 ⁇ / b> L and the right microphone 2 ⁇ / b> R are connected to the monaural input terminal 8 via the switch 7. Furthermore, the microphone unit 2 is connected to the processing device 210 via the monaural input terminal 8. Therefore, the collected sound signal collected by the microphone unit 2 is input to the processing device 210 via the switch 7 and the monaural input terminal 8.
  • the switcher 7 switches the output of the microphone unit 2 so that the sound pickup signal picked up by one or both of the left and right microphones 2L, 2R is input to the monaural input terminal 8.
  • the adder 7b adds the signal from the left microphone 2L and the signal from the right microphone 2R.
  • the switch 7a selectively switches the output of only the left microphone 2L, the output of only the right microphone 2R, and the output from the adder 7b.
  • the control of the switch 7 may be performed by the processing device 210 or the listener U.
  • connection state is switched by the listener U or the processing unit 63 controlling the switch 7a.
  • a state in which the switch 7a is connected to the left microphone 2L is defined as a first connection state.
  • a state in which the switch 7a is connected to the right microphone 2R is referred to as a second connection state.
  • a state in which the switch 7a is connected to the adder 7b is referred to as a third connection state.
  • the microphone unit 2 collects sounds generated by the speakers.
  • the signal collected in the first connection state is defined as a first sound collection signal sL.
  • the signal collected in the second connection state is set as a second sound collection signal sR.
  • a signal collected in the third connection state is defined as a third collected signal sC.
  • the signal collected by only the left microphone 2L becomes the first collected signal sL.
  • a signal collected only by the right microphone 2R becomes the second collected signal sR.
  • a signal obtained by adding the two signals collected by the left and right microphones 2L and 2R becomes the third collected sound signal sC.
  • the third sound collection signal sC is a signal obtained by superimposing the first sound collection signal sL and the second sound collection signal sR.
  • the angle of the incident sound relative to the front of the user U is the incident angle ⁇ (see FIG. 3).
  • the incident angle ⁇ is a spread angle where the front direction of the listener U is 0 ° in the horizontal plane, and is in the range of 0 to 90 °. Processing for obtaining the transfer characteristics Hls and Hlo when the incident angle ⁇ is an arbitrary angle ⁇ will be described below.
  • the measurement in a state where the speaker 5L is disposed at the position of the angle ⁇ is referred to as characteristic measurement.
  • the left speaker 5L reproduces an impulse signal.
  • the processing device 210 switches the switch 7 to measure the sound collection signal. That is, the switch 7 switches the output of the microphone unit 2 and performs the measurement of the transfer characteristic by the impulse signal from the left speaker 5L twice. As a result, the processing device 210 records the first and second collected sound signals for the impulse signal from the left speaker 5L.
  • the processing device 210 calculates the time difference ITD of the time for the sound to reach the left and right ears from the speaker (see FIG. 3). Specifically, assuming that the time until the impulse signal reaches the left microphone 2L from the left speaker 5L is tL, and the time until the impulse signal reaches the right microphone 2R from the right speaker 5R is tR, the time difference ITD is obtained from the difference between tL and tR (tL-tR). However, since the first sound collection signal sL and the second sound collection signal sR are collected separately, the time difference ITD is obtained only from the first sound collection signal sL and the second sound collection signal sR. It is difficult to accurately determine
  • the processing device 210 obtains a time difference ITD ⁇ (hereinafter also referred to as an incident time difference ITD ⁇ ) when arranged at an arbitrary angle ⁇ based on the angle ⁇ , the front time difference ITD0, and the interaural distance D.
  • a time difference ITD ⁇ hereinafter also referred to as an incident time difference ITD ⁇
  • the transfer characteristics Hls and Hlo can be accurately obtained without measuring the third collected sound signal in the characteristic measurement in which the speaker is arranged in the direction of the angle ⁇ .
  • the distance D between both ears is the distance from the left ear to the right ear of the listener U (see FIG. 3).
  • the front time difference ITD0 is acquired by front measurement in which a speaker is arranged in front of the listener U. The front time difference ITD0 will be described later.
  • the processing device 210 By performing the same measurement for the right speaker 5R, the processing device 210 records the first and second sound pickup signals for the right speaker 5R. The processing device 210 obtains the transfer characteristics HRo and HRs based on the first and second collected sound signals for the right speaker 5R.
  • FIG. 5 is a control block diagram illustrating the configuration of the processing device 210.
  • the processing device 210 includes a measurement signal generation unit 211, a sound pickup signal acquisition unit 212, a front time difference acquisition unit 213, an interaural distance acquisition unit 214, an incident time difference calculation unit 215, a transfer characteristic generation unit 216, It has.
  • the process when the left speaker 5L is used will be described. However, the same applies to the process when the right speaker 5R is used.
  • the processing device 210 is an information processing device including the monaural input terminal 8, and includes the memory 61, the operation unit 62, and the processing unit 63 (see also FIG. 2).
  • the memory 61 stores processing programs, various parameters, measurement data, and the like.
  • the processing unit 63 includes a processor such as a CPU (Central Processing Unit), and executes a processing program stored in the memory 61.
  • the processing unit 63 executes the processing program, the measurement signal generation unit 211, the collected sound signal acquisition unit 212, the front time difference acquisition unit 213, the interaural distance acquisition unit 214, the incident time difference calculation unit 215, Each process in the transfer characteristic generation unit 216 is performed.
  • the measurement signal generator 211 generates a measurement signal.
  • the measurement signal generated by the measurement signal generator 211 is D / A converted by a D / A converter (not shown) and output to the left speaker 5L.
  • the measurement signal may be an impulse signal, a TSP signal, or the like.
  • the measurement signal includes measurement sound such as impulse sound.
  • the sound collection signal acquisition unit 212 acquires sound collection signals from the left microphone 2L and the right microphone 2R.
  • the collected sound signals from the microphones 2L and 2R are A / D converted by an A / D converter (not shown) and input to the collected sound signal acquisition unit 212.
  • the collected sound signal acquisition unit 212 may synchronously add signals obtained by a plurality of measurements. Further, the switch 7 switches the input to the monaural input terminal 8 from the speaker 5L.
  • the collected sound signal acquisition unit 212 acquires first to third collected sound signals.
  • the front time difference acquisition unit 213 acquires the front time difference ITD0 of the listener U. Front measurement for obtaining the front time difference ITD0 will be described with reference to FIGS. 6 and 7.
  • FIG. FIG. 6 is a top view schematically showing the configuration of the front measurement for obtaining the front time difference ITD0.
  • FIG. 7 is a flowchart showing the front measurement process.
  • the arrival time from the speaker 5C placed directly in front to the left ear 3L and the arrival time from the speaker 5L to the right ear should be the same.
  • a minute distance difference is caused by the difference in the shape of the head and pinna, resulting in a front time difference ITD0. That is, the front time difference ITD0 is a time difference caused by reflection or diffraction of the shape of the face or ear of the listener U.
  • the processing device 210 measures the Lch signal input to the microphone 2L (S11). Specifically, the measurement signal generator 211 outputs an impulse signal from the speaker C in the first connection state by switching the switch 7. Thereby, the collected sound signal acquisition unit 212 collects the first collected sound signal sL.
  • the first sound collection signal sL corresponds to the transfer characteristic CHls from the speaker 5C to the left ear 3L (microphone 2L).
  • the processing device 210 stores the data of the first collected sound signal sL in the memory 61 or the like.
  • the Rch signal input to the microphone 2R is measured (S12). Specifically, the measurement signal generator 211 outputs an impulse signal from the speaker 5C in the second connection state by switching the switch 7. Thereby, the collected sound signal acquisition unit 212 collects the second collected sound signal sR.
  • the second collected sound signal sR corresponds to the transfer characteristic CHrs from the speaker 5C to the right ear 3R (microphone 2L).
  • the processing device 210 stores the data of the second collected sound signal sR in the memory 61 or the like.
  • a signal obtained by adding the Lch signal input to the microphone 2L and the Rch signal input to the microphone 2R is measured (S13).
  • the measurement signal generator 211 outputs an impulse signal from the left speaker 5L as the third connection state by switching the switch 7.
  • the processing device 210 stores the data of the third sound collection signal sC in the memory 61 or the like. Note that the measurement order of the first to third collected sound signals is not particularly limited. S11 to S13 are performed in a state where the speaker 5C is arranged in front of the listener U.
  • the front time difference acquisition unit 213 calculates a time difference (front time difference ITD0) until sound reaches the left and right microphones 2L, 2R from the speaker 5C based on the first to third sound collection signals (S14).
  • the front time difference acquisition unit 213 gives a delay time dt between the first sound collection signal sL and the second sound collection signal sR, and obtains the added signal as an addition signal y.
  • the front time difference acquisition unit 213 obtains a cross-correlation function between the addition signal y and the third sound collection signal sC.
  • the binaural distance acquisition unit 214 acquires the binaural distance D.
  • the interaural distance D can be obtained by, for example, lateral measurement.
  • the configuration of the lateral measurement is shown in FIG. In the horizontal direction measurement, the speaker 5L is disposed directly beside the listener U. That is, the incident angle ⁇ is 90 °.
  • the arrival time from the left speaker 5L to the left ear 3L is shorter than the arrival time from the speaker 5L to the right ear 3R.
  • the sound quickly reaches the left ear 3L by the width of the listener U's head.
  • the time difference obtained by the lateral measurement is defined as the maximum time difference ITDmax.
  • the binaural distance acquisition unit 214 obtains the binaural distance D (that is, the width of the head) based on the maximum time difference ITDmax.
  • the interaural distance acquisition unit 214 calculates the maximum time difference ITDmax using the first sound collection signal sL, the second sound collection signal sR, and the third sound collection signal sC in the lateral measurement. Specifically, according to the flowchart shown in FIG. 7, the binaural distance acquisition unit 214 calculates the maximum time difference ITDmax.
  • the sound pickup signal acquisition unit 212 acquires the first to third sound pickup signals by the same method as the front time difference ITD0.
  • the first collected sound signal sL corresponds to the transfer characteristic Rhls
  • the second collected sound signal sR corresponds to the transfer characteristic Rhlo.
  • the binaural distance acquisition unit 214 obtains the time difference ITD.
  • the binaural distance acquisition unit 214 gives a delay time dt between the first sound collection signal sL and the second sound collection signal sR in the lateral measurement, and obtains the added signal as an addition signal y. Then, the binaural distance acquisition unit 214 obtains a cross-correlation function between the addition signal y and the third sound collection signal sC.
  • the measurement time (filter length) of each collected sound signal is Lf and the delay time dt is changed from 0 to Lf
  • the delay time dt when the cross-correlation function is the highest is the maximum time difference ITDmax.
  • the binaural distance acquisition unit 214 calculates the binaural distance D from the maximum time difference ITDmax.
  • Equation (1) uses a binaural time difference model in which the sound path length from the nose to the cheek of the listener U is approximated by a straight line, and the sound path length from the cheek to the ear is approximated by an arc. As shown in the approximate expression of Expression (1), the binaural time difference ITD changes according to the incident angle ⁇ and the binaural distance D.
  • the incident time difference calculation unit 215 estimates the estimated time difference by applying the angle ⁇ and the interaural distance D to the binaural time difference model. Furthermore, the incident time difference calculation unit 215 calculates the incident time difference ITD ⁇ by adding the front time difference to the estimated time difference.
  • the transfer characteristic generation unit 216 gives a delay corresponding to the incident time difference ITD ⁇ between the first sound collection signal sL and the second sound collection signal sR collected in the characteristic measurement, so that the transfer characteristic Hls, Generate Hlo. As shown in FIG. 4, the characteristic measurement is performed with the speaker 5L arranged in the direction of the angle ⁇ .
  • the second sound collection signal sR is delayed by the incident time difference ITD ⁇ from the state where the appearance timings of the first sound collection signal sL and the second sound collection signal sR are matched.
  • the first sound pickup signal sL is set as the transfer characteristic Hls
  • the second sound pickup signal sR given the delay time is set as the transfer characteristic Hlo.
  • the transfer characteristics Hls and Hlo may be calculated by cutting out with a predetermined filter length.
  • the same processing is performed for the Rch speaker. Specifically, the characteristic measurement is performed using the right speaker 5 ⁇ / b> L disposed at the angle ⁇ at the front right of the listener U. Similar to the processing in the left speaker 5L, the incident time difference calculation unit 215 obtains the incident time difference ITD ⁇ based on the angle ⁇ , the binaural distance D, and the front time difference ITD0. It should be noted that the distance D between both ears and the front time difference ITD0 can be common to the left and right transfer characteristics.
  • the transfer characteristic generation unit 216 delays the first sound collection signal sL by the incident time difference ITD ⁇ from the state where the appearance timings of the first sound collection signal sL and the second sound collection signal sR are matched.
  • the transfer characteristic generation unit 216 sets the first sound pickup signal sL to which the delay time is given as the transfer characteristic Hro, and sets the second sound pickup signal sR as the transfer characteristic Hrs.
  • the transfer characteristics Hrs and Hro may be calculated by cutting out with a predetermined filter length. In this way, a set of transfer characteristics Hls, Hlo, Hrs, and Hro used for the out-of-head localization process can be acquired.
  • the out-of-head localization processing apparatus 100 shown in FIG. 1 performs out-of-head localization processing using transfer characteristics Hls, Hlo, Hrs, and Hro.
  • the lateral measurement for obtaining the distance D between both ears is performed once for one listener U.
  • the front measurement for obtaining the front time difference ITD0 is performed once for one listener U.
  • the processing device 210 acquires the first to third sound pickup signals in the front measurement and the lateral direction measurement, and acquires the first and second sound pickup signals in the characteristic measurement. Accordingly, when it is desired to increase the number of transfer characteristics, that is, when it is desired to measure the transfer characteristics by arranging speakers at various locations, the total number of sound collections can be reduced as compared with Patent Document 2.
  • Patent Document 2 collects (3N) sound pickup signals in order to measure the first to third sound pickup signals in each of the arrangements. There is a need. On the other hand, since it is not necessary to perform the front measurement and the lateral measurement on both the left and right speakers, in this embodiment, it is only necessary to collect (2N + 6) collected sound signals. Thereby, even when the number of speakers is increased, the transfer characteristic can be easily measured.
  • the incident time difference ITD ⁇ is calculated using the front time difference ITD0 obtained by the front measurement.
  • the front time difference ITD0 is a value reflecting the shape of the listener's U's face and pinna, so that the transfer characteristic can be calculated more accurately.
  • the interaural distance D measured for the listener U and the first and second collected sound signals are used, a transfer characteristic reflecting the shape of the listener's U face and pinna is obtained. Can do. Therefore, an out-of-head localization process suitable for the listener U can be performed.
  • the number of times of sound collection can be reduced, errors caused by measurement can be reduced. For example, when the number of times of sound collection increases, the posture of the listener U may change during the measurement. If the posture of the listener U changes, it becomes impossible to acquire appropriate transfer characteristics. In this embodiment, since the number of times of sound collection can be reduced, the measurement time can be shortened. Errors due to measurement can be reduced.
  • FIG. 9 is a flowchart showing the processing method according to the present embodiment.
  • description is abbreviate
  • the interaural distance acquisition unit 214 acquires the interaural distance D (S21). Specifically, lateral measurement is performed in the speaker arrangement shown in FIG.
  • the binaural distance acquisition unit 214 calculates the binaural distance D based on the first to third collected sound signals obtained by the lateral measurement.
  • the interaural distance D can also be obtained by measurements other than lateral measurement.
  • the distance D between both ears can be obtained from a camera image.
  • the camera of the processing device 210 images the head of the listener U.
  • the processing unit 63 may calculate the interaural distance D by image processing.
  • the listener U or another person may measure the interaural distance D using a measuring device such as a scale.
  • the listener U or the like operates the operation unit 62 and inputs a measurement value.
  • the distance D between both ears of the listener U may be measured in advance by another device or the like.
  • the measurement value may be transmitted from another device to the processing device 210 in advance, and the processing device 210 may read it each time.
  • the front time difference acquisition unit 213 acquires the front time difference ITD0 (S22).
  • front measurement is performed in the speaker arrangement shown in FIG.
  • the front time difference acquisition unit 213 calculates the front time difference ITD0 based on the first to third sound pickup signals obtained by the front measurement.
  • the front time difference ITD0 may be measured in advance by another device or the like. In this case, the measurement value may be transmitted from another device to the processing device 210 in advance, and the processing device 210 may read it each time.
  • the switch 7 should just be comprised so that a 1st connection state and a 2nd connection state may be switched.
  • the incident time difference calculation unit 215 calculates the incident time difference ITD ⁇ (S23). As described above, the incident time difference calculation unit 215 calculates the incident time difference ITD ⁇ using the angle ⁇ , the front time difference ITD0, and the binaural distance D.
  • the sound collection signal acquisition unit 212 acquires the first and second sound collection signals by characteristic measurement (S24). Then, the transfer characteristic generation unit 216 generates a transfer characteristic by giving a delay time corresponding to the incident time difference ITD ⁇ between the first and second sound pickup signals (S25). The above process is repeated for the number of speakers arranged.
  • the order of the lateral measurement, characteristic measurement, and front measurement is not limited to the order shown in the flowchart of FIG. That is, the processing order of S21 to S24 is not particularly limited. For example, S21 may be implemented after S22.
  • the binaural time difference model for obtaining the interaural distance D and the incident time difference ITD ⁇ is not limited to the calculation formula shown in the equation (1).
  • the entire contour of the listener's U face may be approximated by an arc.
  • the entire face outline may be approximated by a straight line or a polynomial.
  • FIG. 2 shows a measurement configuration in which the stereo speaker 5 is arranged in front of the listener U, but there may be one speaker.
  • the speaker in the measurement of the characteristics of the Lch speaker, the speaker is arranged in the front left of the listener U, and in the measurement of the characteristics of the Rch speaker, the speaker is arranged in the front right of the listener U. In this case, measurement at a monaural output terminal is possible.
  • a method of confirming whether or not the speaker 5C is arranged in front of the listener U will be described with reference to FIG.
  • the processing device 210 includes a first camera 251 and a second camera 252.
  • an in-camera and an out-camera mounted on a tablet PC or a smart phone become the first camera 251 and the second camera 252 respectively.
  • the first camera 251 images the face of the listener U
  • the second camera 252 images the speaker 5C arranged in front of the listener U.
  • the processing device 210 performs image processing on the captured image of the first camera 251 and the captured image of the second camera 252 to determine whether or not the speaker 5C is arranged in front of the listener U. For example, the processing device 210 obtains the angle ⁇ at which the speaker 5C is disposed by image processing. The processing device 210 determines whether or not the speaker 5C is arranged directly in front according to whether or not the angle ⁇ is equal to or smaller than the threshold value.
  • the processing device 210 informs the listener U that the speaker 5C is displaced in the left-right direction. For example, the processing device 210 displays a direction that is shifted in the display screen. In this case, the listener U adjusts the relative position between the speaker 5C and the listener U.
  • the processing device 210 When the speaker angle ⁇ is equal to or smaller than the threshold value, the processing device 210 enables front measurement. For example, the processing device 210 displays a front measurement button on the display screen. The front measurement starts when the listener U touches the front measurement button. By doing in this way, front time difference ITD0 can be measured more correctly.
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • the program may be supplied to a computer by various types of temporary computer readable media.
  • Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • the present disclosure is applicable to a processing device that processes a collected sound signal.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本実施の形態にかかる処理装置(210)は、モノラル入力端子(8)を介して、左右のマイク(2L、2R)で収音された収音信号を取得する収音信号取得部(212)と、左のマイク(2L)のみから収音された第1の収音信号、及び、右のマイク(2R)のみから収音された第2の収音信号が入力されるように接続状態を切替える切替器7と、受聴者の両耳間距離を取得する両耳間距離取得部(214)と、正面時間差を取得する正面時間差取得部(213)と、角度θと、正面時間差と、両耳間距離と、に基づいて、入射時間差を算出する入射時間差算出部(215)と、第1及び第2の収音信号に入射時間差に応じた遅延を与えて、伝達特性を算出する伝達特性生成部(216)と、を備えたものである。

Description

処理装置、処理方法、及びプログラム
 本開示は、処理装置、処理方法、及びプログラムに関する。
 頭外定位技術では、ヘッドホンから耳までの特性をキャンセルし、ステレオスピーカから耳までの4本の特性を与えることにより、音像を頭外に定位させている。特許文献1には、頭外に音像を定位させる方法として、受聴者の頭部伝達関数HRTF(Head Related Transfer Function)を用いる方法が開示されている。また、HRTFは個人差が大きく、特に耳介形状の違いによるHRTFの変化が著しいことが知られている。
 したがって、HRTF等の空間音響伝達特性(以下、伝達特性とも称する)は、受聴者が左右の耳にマイクを装着した状態で、測定することが好ましい。ところで、昨今のメモリ容量の増大や演算速度の高速化に伴い、スマートホンやタブレット等の携帯端末を用いて、音像定位などのオーディオ信号処理を行うことが可能となった。そのため、携帯端末に付属するマイク端子を用いて、空間音響伝達特性の測定演算を行うことが可能となった。
 携帯端末の多くでは、マイク入力端子がステレオ入力ではなくモノラル入力となっている。さらに、パソコンなどでもマイク入力端子がモノラル入力となっていることがある。スピーカから左右の耳までの空間音響伝達特性を携帯端末等で測定する際に、スピーカから左右の耳までの距離が異なる場合、音響信号がスピーカから左右の耳へ到達するまでに必要な時間には差(時間差)が生じる。モノラルのマイク入力端子では左右の耳に設置したマイクで同時に録音することができないため、時間差を取得することはできない。したがって、モノラルのマイク入力端子では、左右の耳への到達時間の時間差を反映させた空間音響伝達特性を求めることが困難であった。
 上記の問題を解決するための技術が特許文献2に開示されている。特許文献2には、モノラルのマイク入力の場合でも適切に伝達特性を測定することができる音場再生装置が開示されている。この音場再生装置は、左右のマイクを備えたマイクユニットと、モノラル入力端子と、マイクユニットの出力を切り替える切替器とを、備えている。
 切替器を切り替えることで、左のマイクのみから収音された第1の収音信号、右のマイクのみから収音された第2の収音信号、及び左右のマイクから収音された第3の収音信号が測定している。処理装置は、第1~第3の収音信号に基づいて、スピーカから左右の記マイクへの音の到達時間の時間差を算出している。処理装置は、第1及び第2の収音信号に基づいて時間差を反映した伝達特性を算出する。このようにすることで、モノラル入力端子であった場合でも、時間差を考慮した伝達測定を取得することができる。
特開2002-209300号公報 特開2017-28365号公報
 頭外定位技術では、ステレオスピーカから耳までの4本の伝達特性を与えることにより、音像を頭外に定位させている。頭外定位処理を行うためには、受聴者の左前方にスピーカを配置した測定と、右前方にスピーカを配置した測定をそれぞれ行う必要がある。特許文献2では、1つのスピーカ位置に対して、第1~第3の収音信号を測定するために、3回の測定を行う必要がある。左右のスピーカのそれぞれに対して、第1~第3の収音信号を取得するためには、合計6回の測定を行う必要がある。
 また、受聴者に対するスピーカの配置を変えて測定を行いたいという要求もある。例えば、受聴者の正面方向からの見開き角度を変えた伝達特性を用いることで、受聴者の好みに応じた定位感を実現することができる。配置数が増加すると、測定回数が増加してしまう。
 本開示は上記の点に鑑みなされたもので、簡便に伝達特性を測定することができる処理装置、処理方法、及びプログラムを提供することを目的とする。
 本実施形態にかかる処理装置は、音源から出力される音を受聴者に装着された左右のマイクにより収音することで得られた収音信号を処理する処理装置であって、前記受聴者の正面前方から角度θだけ傾いた方向に前記音源が配置された状態での特性測定を行うため、前記音源から出力される測定信号を生成する測定信号生成部と、前記左右のマイクで収音された収音信号が入力されるモノラル入力端子と、前記モノラル入力端子を介して、前記左右のマイクで収音された収音信号を取得する収音信号取得部と、左の前記マイクのみから収音された第1の収音信号、及び、右の前記マイクのみから収音された第2の収音信号がそれぞれ前記モノラル入力端子に入力されるように接続状態を切替える切替器と、前記受聴者の両耳間距離を取得する両耳間距離取得部と、前記受聴者の正面前方に配置された前記音源から左右の前記マイクまでの到達時間の時間差を正面時間差として取得する正面時間差取得部と、前記角度θと、前記正面時間差と、前記両耳間距離と、に基づいて、入射時間差を算出する入射時間差算出部と、前記特性測定において取得された前記第1及び第2の収音信号に前記入射時間差に応じた遅延を与えて、前記音源から前記左右のマイクまでの伝達特性を算出する伝達特性生成部と、を備えたものである。
 本実施形態にかかる処理方法は、音源から出力される音を受聴者に装着された左右のマイクにより収音することで得られた収音信号を処理する処理装置における処理方法であって、前記処理装置は、前記受聴者の正面前方から角度θだけ傾いた方向に配置された前記音源に測定信号を出力することで特性測定を行い、前記処理装置は、モノラル入力端子を備え、前記モノラル入力端子と前記左右のマイクとの間には、切替器が設けられており、前記切替器は、左の前記マイクのみから収音された第1の収音信号、及び、右の前記マイクのみから収音された第2の収音信号がそれぞれ前記モノラル入力端子に入力されるよう、前記モノラル入力端子への入力を切替え、前記処理方法は、前記受聴者の両耳間距離を取得するステップと、前記受聴者の正面前方に配置された前記音源から左右の前記マイクまでの到達時間の時間差を正面時間差として取得するステップと、前記角度θと、前記正面時間差と、前記両耳間距離と、に基づいて、入射時間差を算出するステップと、前記特性測定において取得された前記第1及び第2の収音信号に前記入射時間差に応じた遅延を与えて、前記音源から前記左右のマイクまでの伝達特性を算出するステップと、を備えたものである。
 本実施形態にかかるプログラムは、左右のマイクにより収音することで得られた収音信号を処理する処理方法をコンピュータに実行させるプログラムであって、前記コンピュータは、受聴者の正面前方から角度θだけ傾いた方向に配置された音源に測定信号を出力することで特性測定を行い、前記コンピュータは、モノラル入力端子を備え、前記モノラル入力端子と前記左右のマイクとの間には、切替器が設けられており、前記切替器は、左の前記マイクのみから収音された第1の収音信号、及び、右の前記マイクのみから収音された第2の収音信号がそれぞれ前記モノラル入力端子に入力されるよう、前記モノラル入力端子への入力を切替え、前記処理方法は、前記受聴者の両耳間距離を取得するステップと、前記受聴者の正面前方に配置された前記音源から左右の前記マイクまでの到達時間の時間差を正面時間差として取得するステップと、前記角度θと、前記正面時間差と、前記両耳間距離と、に基づいて、入射時間差を算出するステップと、前記特性測定において取得された前記第1及び第2の収音信号に前記入射時間差に応じた遅延を与えて、前記音源から前記左右のマイクまでの伝達特性を算出するステップと、を備えたものである。
 本開示によれば、簡便に伝達特性を測定することができる処理装置、処理方法、及びプログラムを提供することができる。
本実施の形態に係る頭外定位処理装置を示すブロック図である。 伝達特性を測定する構成を示す図である。 スピーカの入射角φと両耳時間差ITDを説明するための図である。 特性測定における構成を模式的に示す上面図である。 伝達特性を測定するための処理装置を示すブロック図である。 正面測定における構成を模式的に示す上面図である。 時間差を求めるための処理を示すフローチャートである。 横方向測定における構成を模式的に示す上面図である。 本実施の形態にかかる処理方法を示すフローチャートである。 正面測定時に位置合わせを行う処理を説明するための模式図である。
 本実施の形態にかかる処理装置で生成したフィルタを用いた音像定位処理の概要について説明する。本実施形態にかかる頭外定位処理は、空間音響伝達特性と外耳道伝達特性を用いて頭外定位処理を行うものである。空間音響伝達特性は、スピーカなどの音源から外耳道までの伝達特性である。外耳道伝達特性は、ヘッドホンやイヤホンのスピーカユニットから鼓膜までの伝達特性である。本実施形態では、ヘッドホン又はイヤホンを装着していない状態での空間音響伝達特性を測定し、それらの測定データを用いて頭外定位処理を実現している。
 本実施の形態にかかる頭外定位処理は、パーソナルコンピュータ、スマートホン、タブレットPCなどのユーザ端末で実行される。ユーザ端末は、プロセッサ等の処理手段、メモリやハードディスクなどの記憶手段、液晶モニタ等の表示手段、タッチパネル、ボタン、キーボード、マウスなどの操作手段を有する情報処理装置である。ユーザ端末は、データを送受信する通信機能を有していてもよい。さらに、ユーザ端末には、ヘッドホン又はイヤホンを有する出力手段(出力ユニット)が接続される。頭外定位処理装置としては、モノラル入力端子を有する汎用の処理装置を用いることができる。
実施の形態1.
(頭外定位処理装置)
 本実施の形態にかかる音場再生装置の一例である頭外定位処理装置100を図1に示す。図1は、頭外定位処理装置100のブロック図である。頭外定位処理装置100は、ヘッドホン43を装着する受聴者Uに対して音場を再生する。そのため、頭外定位処理装置100は、LchとRchのステレオ入力信号XL、XRについて、音像定位処理を行う。LchとRchのステレオ入力信号XL、XRは、CD(Compact Disc)プレイヤーなどから出力されるアナログのオーディオ再生信号、又は、mp3(MPEG Audio Layer-3)等のデジタルオーディオデータである。なお、頭外定位処理装置100は、物理的に単一な装置に限られるものではなく、一部の処理が異なる装置で行われてもよい。例えば、一部の処理がスマートホン等の情報処理装置により行われ、残りの処理がヘッドホン43に内蔵されたDSP(Digital Signal Processor)などにより行われてもよい。
 頭外定位処理装置100は、頭外定位処理部10、フィルタ部41、フィルタ部42、及びヘッドホン43を備えている。頭外定位処理部10、フィルタ部41、及びフィルタ部42は、具体的にはプロセッサ等により実現可能である。
 頭外定位処理部10は、畳み込み演算部11~12、21~22、及び加算器24、25を備えている。畳み込み演算部11~12、21~22は、空間音響伝達特性を用いた畳み込み処理を行う。頭外定位処理部10には、CDプレイヤーなどからのステレオ入力信号XL、XRが入力される。頭外定位処理部10には、空間音響伝達特性が設定されている。頭外定位処理部10は、各chのステレオ入力信号XL、XRに対し、空間音響伝達特性のフィルタ(以下、空間音響フィルタとも称する)を畳み込む。空間音響伝達特性は被測定者の頭部や耳介で測定した頭部伝達関数HRTFでもよいし、ダミーヘッドまたは第三者の頭部伝達関数であってもよい。
 4つの空間音響伝達特性Hls、Hlo、Hro、Hrsを1セットとしたものを空間音響伝達関数とする。畳み込み演算部11、12、21、22で畳み込みに用いられるデータが空間音響フィルタとなる。空間音響伝達特性Hls、Hlo、Hro、Hrsを所定のフィルタ長で切り出すことで、空間音響フィルタが生成される。
 空間音響伝達特性Hls、Hlo、Hro、Hrsのそれぞれは、インパルス応答測定などにより、事前に取得されている。例えば、受聴者Uが左右の耳にマイクをそれぞれ装着する。受聴者Uの前方に配置された左右のスピーカが、インパルス応答測定を行うための、インパルス音をそれぞれ出力する。そして、スピーカから出力されたインパルス音等の測定信号をマイクで収音する。マイクでの収音信号に基づいて、空間音響伝達特性Hls、Hlo、Hro、Hrsが取得される。左スピーカと左マイクとの間の空間音響伝達特性Hls、左スピーカと右マイクとの間の空間音響伝達特性Hlo、右スピーカと左マイクとの間の空間音響伝達特性Hro、右スピーカと右マイクとの間の空間音響伝達特性Hrsが測定される。
 そして、畳み込み演算部11は、Lchのステレオ入力信号XLに対して空間音響伝達特性Hlsに応じた空間音響フィルタを畳み込む。畳み込み演算部11は、畳み込み演算データを加算器24に出力する。畳み込み演算部21は、Rchのステレオ入力信号XRに対して空間音響伝達特性Hroに応じた空間音響フィルタを畳み込む。畳み込み演算部21は、畳み込み演算データを加算器24に出力する。加算器24は2つの畳み込み演算データを加算して、フィルタ部41に出力する。
 畳み込み演算部12は、Lchのステレオ入力信号XLに対して空間音響伝達特性Hloに応じた空間音響フィルタを畳み込む。畳み込み演算部12は、畳み込み演算データを、加算器25に出力する。畳み込み演算部22は、Rchのステレオ入力信号XRに対して空間音響伝達特性Hrsに応じた空間音響フィルタを畳み込む。畳み込み演算部22は、畳み込み演算データを、加算器25に出力する。加算器25は2つの畳み込み演算データを加算して、フィルタ部42に出力する。
 フィルタ部41、42にはヘッドホン特性(ヘッドホンの再生ユニットとマイク間の特性)をキャンセルする逆フィルタが設定されている。そして、頭外定位処理部10での処理が施された再生信号(畳み込み演算信号)に逆フィルタを畳み込む。フィルタ部41で加算器24からのLch信号に対して、逆フィルタを畳み込む。同様に、フィルタ部42は加算器25からのRch信号に対して逆フィルタを畳み込む。逆フィルタは、ヘッドホン43を装着した場合に、ヘッドホンユニットからマイクまでの特性をキャンセルする。マイクは、外耳道入口から鼓膜までの間ならばどこに配置してもよい。逆フィルタは、受聴者U本人の特性の測定結果から算出されていてもよく、他の受聴者やダミーヘッドで測定されたものでもよい。
 フィルタ部41は、処理されたLch信号をヘッドホン43の左ユニット43Lに出力する。フィルタ部42は、処理されたRch信号をヘッドホン43の右ユニット43Rに出力する。受聴者Uは、ヘッドホン43を装着している。ヘッドホン43は、Lch信号とRch信号を受聴者Uに向けて出力する。これにより、ユーザUの頭外に定位された音像を再生することができる。
 このように、頭外定位処理装置100は、空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、ヘッドホン特性の逆フィルタを用いて、頭外定位処理を行っている。以下の説明において、空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、ヘッドホン特性の逆フィルタとをまとめて頭外定位処理フィルタとする。2chのステレオ再生信号の場合、頭外定位フィルタは、4つの空間音響フィルタと、2つの逆フィルタとから構成されている。そして、頭外定位処理装置100は、ステレオ再生信号に対して合計6個の頭外定位フィルタを用いて畳み込み演算処理を行うことで、頭外定位処理を実行する。
 図2を用いて、空間音響伝達特性を測定する測定装置について説明する。測定装置200は、マイクユニット2、ステレオスピーカ5、処理装置210、及び切替器7を備えている。処理装置210は、モノラル入力端子8と、音声出力端子9と、を備えている。切替器7は、スイッチ7a、及び加算器7bを有している。
 処理装置210は、パーソナルコンピュータ、スマートホン、タブレットPC等の情報処理装置である。処理装置210は、メモリ61等に格納されたプログラムを実行することにより、測定を実施する。処理装置210は、収音信号を記憶するメモリ61、受聴者Uの操作を受け付ける操作部62、各信号を処理する処理部63を備えている。操作部62は、例えば、タッチパネルである。
 具体的には、処理装置210がアプリケーションプログラム(アプリ)を実行すると、インパルス信号を生成し、伝達特性の測定を開始する。なお、処理装置210は、図1に示した頭外定位処理装置100と同一の装置であってよいし、別の装置であってもよい。処理装置210と頭外定位処理装置100とが同一の装置である場合、処理装置210が、測定された伝達特性をメモリ61等に記憶する。処理装置210と頭外定位処理装置100とが別の装置である場合、処理装置210は頭外定位処理装置100へ、有線通信又は無線通信によって、伝達特性(伝達関数)を送信する。なお、測定用の信号はインパルス信号に限らず、TSP(Time Streched Pulse)信号やM系列信号等の他の信号を用いてもよい。
 図2では、受聴者Uの前方に左スピーカ5Lと右スピーカ5Rが設置されている。左スピーカ5Lと右スピーカ5Rは左右対称に配置されている。左スピーカ5Lと右スピーカ5Rを備えているステレオスピーカ5は、音声出力端子9を介して、処理装置210と接続されている。音声出力端子9がステレオ出力端子となっているため、左スピーカ5Lと右スピーカ5Rとに接続されているが、音声出力端子9は、モノラル出力端子であってもよい。この場合、音声出力端子9は、1つのスピーカと接続される。そして、スピーカを受聴者Uの左前方の位置(つまり、図2中の左スピーカ5Lの位置)から右前方の位置(つまり、図2中の右スピーカ5Rの位置)に変えることで左スピーカからの伝達特性と右のスピーカからの伝達特性を測定することができる。
 また、モノラル入力端子8と音声出力端子9は、共通の入出力端子であってもよい。この場合、3極又は4極のプラグを接続することにより、音声を入出力することができる。さらに、処理装置210はBluetooth(登録商標)などの無線通信によって、スピーカユニット5に測定信号を出力してもよい。
 処理装置210は、左スピーカ5Lと右スピーカ5Rのそれぞれから出力されるインパルス信号を生成する。すなわち、測定装置200は、左スピーカ5Lから左のマイク2Lまでの伝達特性Hlsの測定と、右スピーカ5Rから右のマイク2Rまでの伝達特性Hloの測定とをそれぞれ行う。なお、図2では、受聴者Uの前方左側に左スピーカ5Lを、前方右側に右スピーカ5Rをそれぞれ配置したが、スピーカの配置は任意の位置でよく、この配置に限らない。また、配置するスピーカの数は、1でもよく、2より多くてもよい。
 また、受聴者Uの左耳3Lの外耳道入口、又は鼓膜位置に収音用のマイク2Lが設置される。受聴者Uの右耳3Rの外耳道入口、又は鼓膜位置に収音用のマイク2Rが設置される。なお、受聴者Uは、人でもよく、ダミーヘッドでもよい。したがって、本実施形態において、受聴者Uは人だけでなく、ダミーヘッドを含む概念である。左のマイク2L、及び右のマイク2Rを有するマイクユニット2は、切替器7と接続されている。なお、切替器7は、マイクユニット2に内蔵されていてもよい。
 切替器7は、処理装置210に設けられたモノラル入力端子8にケーブルを介して接続されている。したがって、左のマイク2L、及び右のマイク2Rは、切替器7を介して、モノラル入力端子8に接続されている。さらに、マイクユニット2は、モノラル入力端子8を介して、処理装置210に接続されている。よって、マイクユニット2で収音された収音信号は、切替器7、及びモノラル入力端子8を介して、処理装置210に入力される。
 切替器7は、左右のマイク2L、2Rの一方又は両方で収音された収音信号がモノラル入力端子8に入力されるよう、マイクユニット2の出力を切替える。加算器7bは、左のマイク2Lからの信号と右のマイク2Rからの信号とを加算する。スイッチ7aは、左のマイク2Lのみの出力、右のマイク2Rのみの出力、及び加算器7bからの出力を選択的に切り替える。切替器7の制御は、処理装置210が行ってもよく、受聴者Uが行ってもよい。
 受聴者U又は処理部63がスイッチ7aを制御することで、接続状態が切替えられる。スイッチ7aが左のマイク2Lに接続した状態を第1の接続状態とする。スイッチ7aが右のマイク2Rに接続した状態を第2の接続状態とする。スイッチ7aが加算器7bに接続した状態を第3の接続状態とする。第1~第3の接続状態で、マイクユニット2がスピーカで発生した音をそれぞれ収音する。ここで、第1の接続状態で収音した信号を第1の収音信号sLとする。第2の接続状態で収音した信号を第2の収音信号sRとする。第3の接続状態で収音した信号を第3の収音信号sCとする。
 左のマイク2Lのみで収音される信号が第1の収音信号sLとなる。右のマイク2Rのみで収音される信号が第2の収音信号sRとなる。左右のマイク2L、2Rで収音される2つの信号を加算した信号が第3の収音信号sCとなる。第3の収音信号sCは、第1の収音信号sLと第2の収音信号sRが重ね合わされた信号となる。
 ここで、上面視において、ユーザUの真正面を基準とする入射音の角度を入射角φとする(図3参照)。入射角φは、水平面内において、受聴者Uの正面方向を0°とする見開き角度であり、0~90°の範囲となる。入射角φが任意の角度θの場合の伝達特性Hls、Hloを求める処理について以下に説明する。
 図4に示すように、スピーカ5Lが角度θの位置に配置された状態での測定を特性測定とする。特性測定において、左スピーカ5Lはインパルス信号を再生する。処理装置210は切替器7を切替えて、収音信号を測定する。すなわち、切替器7がマイクユニット2の出力を切替えて、左スピーカ5Lからのインパルス信号による伝達特性の測定を2回実施する。これにより、左スピーカ5Lからのインパルス信号に対して、処理装置210が第1、及び第2の収音信号をそれぞれ収録する。
 さらに、処理装置210は、スピーカから左右の耳へ音が到達する時間の時間差ITDを算出している(図3参照)。具体的には、左のスピーカ5Lから左のマイク2Lにインパルス信号が到達するまでの時間をtL、右のスピーカ5Rから右のマイク2Rにインパルス信号が到達するまでの時間をtRとすると、時間差ITDはtLとtRの差分(tL-tR)により求められる。ところが、第1の収音信号sLと第2の収音信号sRの収音は別々に行われているため、第1の収音信号sLと第2の収音信号sRのみからでは、時間差ITDを正確に求めることが困難になる。
 そこで、処理装置210は、任意の角度θに配置した場合の時間差ITDθ(以下、入射時間差ITDθともいう)を、角度θ、正面時間差ITD0、及び両耳間距離Dに基づいて求めている。このようにすることで、角度θの方向にスピーカを配置した特性測定において、第3の収音信号を測定しなくても、伝達特性Hls、Hloを正確に求めることができる。
 なお、両耳間距離Dは、受聴者Uの左耳から右耳までの距離である(図3参照)。正面時間差ITD0は、受聴者Uの正面前方にスピーカを配置した正面測定で取得される。正面時間差ITD0については後述する。
 右スピーカ5Rについても同様の測定を行うことで、処理装置210が右スピーカ5Rに対する第1、及び第2の収音信号をそれぞれ収録する。処理装置210は、右スピーカ5Rに対する第1、及び第2の収音信号に基づいて、伝達特性HRo、HRsを求める。
 本実施の形態では、角度θにスピーカ5L、5Rが配置された状態で、第3の収音信号を取得することが不要となる。よって、特許文献2に比べて、少ない収音回数で、伝達特性を測定すること可能となる。例えば、スピーカ5L、5Rの配置を変えて、伝達特性Hls、Hlo、HRo、HRsを複数セット測定する場合、収音回数の増加を抑制することができる。
 上記の処理について、図5を用いて、詳細に説明する。図5は、処理装置210の構成を示す制御ブロック図である。処理装置210は、測定信号生成部211と、収音信号取得部212と、正面時間差取得部213と、両耳間距離取得部214と、入射時間差算出部215と、伝達特性生成部216と、を備えている。なお、以下の説明では、左スピーカ5Lを用いた場合の処理について説明を行うが、右スピーカ5Rを用いた場合の処理についても同様であるため、適宜説明を省略する。
 上記したように、処理装置210は、モノラル入力端子8を備えた情報処理装置であり、メモリ61、操作部62、及び処理部63を備えている(図2を合わせて参照)。メモリ61は、処理プログラムや各種パラメータや測定データなどを記憶している。処理部63は、CPU(Central Processing Unit)等のプロセッサを有しており、メモリ61に格納された処理プログラムを実行する。処理部63が処理プログラムを実行することで、測定信号生成部211と、収音信号取得部212と、正面時間差取得部213と、両耳間距離取得部214と、入射時間差算出部215と、伝達特性生成部216と、における各処理が実施される。
 測定信号生成部211は、測定信号を生成する。測定信号生成部211で生成された測定信号は、D/A変換器(不図示)でD/A変換されて、左スピーカ5Lに出力される。測定信号は、インパルス信号やTSP信号等であってもよい。測定信号はインパルス音等の測定音を含んでいる。
 収音信号取得部212は、左マイク2L、右マイク2Rからの収音信号を取得する。なお、マイク2L、2Rからの収音信号は、A/D変換器(不図示)でA/D変換されて、収音信号取得部212に入力される。収音信号取得部212は、複数回の測定により得られた信号を同期加算してもよい。さらに、切替器7がスピーカ5Lからのモノラル入力端子8への入力を切替えている。収音信号取得部212は、第1~第3の収音信号をそれぞれ取得する。
 正面時間差取得部213は、受聴者Uの正面時間差ITD0を取得する。正面時間差ITD0を取得するための正面測定について、図6、及び図7を用いて説明する。図6は、正面時間差ITD0を取得するための正面測定の構成を模式的に示す上面図である。図7は、正面測定の処理を示すフローチャートである。
 正面測定では、スピーカが左右の中央に配置されているため、図6のように、スピーカ5Cとして示している。図6では、スピーカ5Cが受聴者Uの真正面に配置されている。スピーカ5Cの左右の中心が、受聴者Uの左右の中心に一致している。入射角φ=0°となっている。
 顔や耳の形状が完全に左右対称であれば、真正面に配置されたスピーカ5Cから左耳3Lまでの到達時間と、スピーカ5Lから右耳までの到達時間とは同じになるはずである。しかしながら、実際には、頭部や耳介形状の差によって微小な距離の差が生じ、その結果、正面時間差ITD0が発生する。つまり、正面時間差ITD0は、受聴者U個人の顔や耳の形状が持つ反射や回折によって生じる時間差となる。
 処理装置210が、マイク2Lに入力されるLch信号の測定を行う(S11)。具体的には、切替器7を切替えて第1の接続状態として、測定信号生成部211が、スピーカCからインパルス信号を出力させる。これにより、収音信号取得部212が第1の収音信号sLを収音する。第1の収音信号sLは、スピーカ5Cから左耳3L(マイク2L)までの伝達特性CHlsに対応している。処理装置210は、第1の収音信号sLのデータをメモリ61等に記憶する。
 次に、マイク2Rに入力されるRch信号の測定を行う(S12)。具体的には、切替器7を切替えて第2の接続状態として、測定信号生成部211が、スピーカ5Cからインパルス信号を出力させる。これにより、収音信号取得部212が第2の収音信号sRを収音する。第2の収音信号sRは、スピーカ5Cから右耳3R(マイク2L)までの伝達特性CHrsに対応している。処理装置210は、第2の収音信号sRのデータをメモリ61等に記憶する。
 さらに、マイク2Lに入力されるLchの信号とマイク2Rに入力されるRchの信号とが加算された信号の測定を行う(S13)。具体的には、切替器7を切替えて第3の接続状態として、測定信号生成部211が、左スピーカ5Lからインパルス信号を出力させる。これにより、収音信号取得部212が第3の収音信号sC(=sL+sR)を収音する。処理装置210は、第3の収音信号sCのデータをメモリ61等に記憶する。なお、第1~第3の収音信号の測定順序は特に限られるものではない。S11~S13は、スピーカ5Cが受聴者Uの正面に配置されている状態で実施される。
 正面時間差取得部213は、第1~第3の収音信号に基づいて、スピーカ5Cから左右のマイク2L、2Rに音が到達するまでの時間差(正面時間差ITD0)を算出する(S14)。正面時間差取得部213は、第1の収音信号sLと第2の収音信号sRとの間に、遅延時間dtを与えて、加算した信号を加算信号yとして求める。正面時間差取得部213は、加算信号yと第3の収音信号sCとの相互相関関数を求める。収音信号の測定時間(フィルタ長)をLfとし、遅延時間dtを-Lf~Lfまで変えたときに、相互相関関数が最も高いときの遅延時間dtが正面時間差ITD0となる。
 正面測定では、第1の収音信号sLと第2の収音信号sRのどちらの信号が遅延するか明らかではないため、第1の収音信号sLに遅延を与えた場合と第2の収音信号sRに遅延を与えた場合との双方において加算信号yを算出する必要がある。すなわち、第1の収音信号sLを第2の収音信号sRよりも遅延させた場合と、第2の収音信号sRを第1の収音信号sLよりも遅延させた場合で、相互相関関数を求める。そのため、遅延時間の範囲を-Lf~+Lfとしている。また、遅延時間t=0の時、第1の収音信号sLと第2の収音信号sRの出現タイミング(つまり、耳に最初に到達する直接音のタイミング)は一致している。
 図5の説明に戻る。両耳間距離取得部214は、両耳間距離Dを取得する。両耳間距離Dは、例えば、横方向測定により取得することができる。横方向測定の構成を図8に示す。横方向測定では、スピーカ5Lが受聴者Uの真横に配置されている。すなわち、入射角φ=90°となっている。
 図8に示す横方向測定では、左スピーカ5Lから左耳3Lまでの到達時間が、スピーカ5Lから右耳3Rまでの到達時間よりも短くなる。具体的には、受聴者Uの頭部の幅だけ、左耳3Lに音が早く到達する。さらに、φ=90°=π/2[rad]の時に、時間差ITDが最大となるため、横方向測定で求められる時間差を最大時間差ITDmaxとする。両耳間距離取得部214は、最大時間差ITDmaxに基づいて、両耳間距離D(つまり、頭部の幅)を求める。
 両耳間距離取得部214は、横方向測定での第1の収音信号sL、第2の収音信号sR、第3の収音信号sCを用いて、最大時間差ITDmaxを算出する。具体的には、図7に示すフローチャートにしたがって、両耳間距離取得部214が最大時間差ITDmaxを算出する。正面時間差ITD0と同様の手法により、収音信号取得部212が第1~第3の収音信号を取得する。1の収音信号sLは、伝達特性Rhlsに対応し、第2の収音信号sRは、伝達特性Rhloに対応する。
 図7のS14と同様に、両耳間距離取得部214は時間差ITDを求める。両耳間距離取得部214は横方向測定での第1の収音信号sLと第2の収音信号sRとの間に、遅延時間dtを与えて、加算した信号を加算信号yとして求める。そして、両耳間距離取得部214は加算信号yと第3の収音信号sCとの相互相関関数を求める。各収音信号の測定時間(フィルタ長)をLfとし、遅延時間dtを0~Lfまで変えたときに、相互相関関数が最も高いときの遅延時間dtが最大時間差ITDmaxとなる。
 横方向測定では、第2の収音信号sRが第1の収音信号sLよりも遅れるのは明らかであるため、第2の収音信号sRのみに対して遅延を与えればよい。そのため、遅延時間の範囲を0~Lfとしている。また、遅延時間t=0の時、第1の収音信号sLと第2の収音信号sRの出現タイミング(つまり、耳に到達する直接音のタイミング)は一致している。
 次に、両耳間距離取得部214は、最大時間差ITDmaxから両耳間距離Dを算出する。後述する両耳時間差モデルを用いると、両耳間距離Dと時間差ITDの関係式は、以下の式(1)のようになる。
φ+sinφ=2c×ITD/D   ・・・(1)
 φは入射角[rad]、cは音速、ITDは時間差、Dは両耳間距離である。式(1)では、受聴者Uの鼻から頬までの音路長を直線で近似し、頬から耳までの音路長を円弧で近似する両耳時間差モデルを用いている。式(1)の近似式に示されるように、両耳時間差ITDは、入射角φ及び両耳間距離Dに応じて変化する。
 上面視における頭部の形状を半径rの円形とし、両耳間距離D=半径2rとすると、式(1)から以下の式(2)が得られる。
ITD=r(φ+sinφ)/c   ・・・(2)
 c=340m/secとする。横方向測定では、φ=π/2(=90°)となるため、φにπ/2を代入し、ITD=ITDmaxとすると両耳間距離Dが得られる。このように両耳間距離Dは、両耳時間差モデルに、時間差ITDmaxを適用することで、求められる。なお、横方向測定はφ=90°に限られるものではない。φが任意の値であっても、式(1)から両耳間距離Dを算出することができる。
 図5の説明に戻る。入射時間差算出部215は、入射角φ=θにおける時間差を入射時間差ITDθとして求める。入射時間差算出部215は、両耳時間差モデルに角度θ及び両耳間距離Dを適用して推定時間差を推定している。さらに、入射時間差算出部215は、推定時間差に正面時間差を加えることで、入射時間差ITDθを算出している。
 具体的には、入射時間差算出部215は、両耳時間差モデルから導き出された式(1)の計算式において、φ=θ[rad]として、推定時間差を推定してる。すなわち、入射時間差算出部215は、上記の式(1)において、φ=θ/(2π)[rad]としたときの時間差ITDを推定時間差として求める。さらに、入射時間差算出部215は、推定時間差に正面時間差ITD0を加算することで、入射時間差ITDθを求める。このようにすることで、受聴者Uに最適な入射時間差ITDθを求めることができる。
 伝達特性生成部216は、特性測定において収音された第1の収音信号sLと第2の収音信号sRとの間に、入射時間差ITDθに応じた遅延を与えることで、伝達特性Hls、Hloを生成する。特性測定は、図4に示したように、スピーカ5Lが角度θの方向に配置された状態で実施されている。
 具体的には、第1の収音信号sLと第2の収音信号sRの出現タイミングを一致させた状態から、入射時間差ITDθだけ、第2の収音信号sRを遅延させる。そして、第1の収音信号sLを伝達特性Hlsとし、遅延時間が与えられた第2の収音信号sRを伝達特性Hloとする。また、所定のフィルタ長で切り出すことで、伝達特性Hls、Hloを算出してもよい。
 Rchのスピーカに対して同様の処理が実施される。具体的には、受聴者Uの右前方の角度θの位置に配置された右スピーカ5Lを用いて特性測定を行う。左スピーカ5Lでの処理と同様に、入射時間差算出部215は、角度θ、両耳間距離D、正面時間差ITD0に基づいて、入射時間差ITDθを求める。なお、両耳間距離Dと、正面時間差ITD0は、左右の伝達特性で共通とすることができる。
 伝達特性生成部216は、第1の収音信号sLと第2の収音信号sRとの出現タイミングを一致させた状態から、入射時間差ITDθだけ、第1の収音信号sLを遅延させる。伝達特性生成部216は、遅延時間が与えられた第1の収音信号sLを伝達特性Hroとし、第2の収音信号sRを伝達特性Hrsとする。また、所定のフィルタ長で切り出すことで、伝達特性Hrs、Hroを算出してもよい。このようにすることで、頭外定位処理に用いられる1セットの伝達特性Hls、Hlo、Hrs、Hroを取得することができる。図1に示した頭外定位処理装置100は、伝達特性Hls、Hlo、Hrs、Hroを用いて、頭外定位処理を実施する。
 上記の通り、両耳間距離Dと、正面時間差ITD0は、伝達特性Hls、Hloと、伝達特性HRo、HRsとで共通の値を用いることができる。よって、両耳間距離Dを取得するための横方向測定は、一人の受聴者Uに対して1回実施される。同様に、正面時間差ITD0を取得するための正面測定は、一人の受聴者Uに対して1回実施される。
 以上まとめると、処理装置210は、正面測定、及び横方向測定では、第1~第3の収音信号を取得し、特性測定では、第1及び第2の収音信号を取得する。従って、伝達特性の数を増やしたい場合、すなわち、スピーカを様々な場所に配置して伝達特性を測定したい場合、特許文献2に比べて、全体の収音回数を低減することができる。
 具体的には、スピーカの配置数をNとすると、特許文献2では、それぞれの配置で、第1~第3の収音信号を測定するため、(3N)個の収音信号を収音する必要がある。一方、正面測定と横方向測定は、左右両方のスピーカに対して行う必要が無いため、本実施の形態では、(2N+6)個の収音信号を収音するだけでよい。これにより、スピーカの配置数を増やした場合でも、簡便に伝達特性を測定することができる。
 本実施の形態では、正面測定で得られた正面時間差ITD0を用いて、入射時間差ITDθを算出している。上記のように正面時間差ITD0は、受聴者Uの顔や耳介の形状を反映した値となっているため、より正確に、伝達特性を算出することができる。さらに、受聴者Uに対して測定された両耳間距離D、第1及び第2の収音信号を用いているため、受聴者Uの顔や耳介の形状を反映した伝達特性を求めることができる。よって、受聴者Uに適した頭外定位処理を実施することができる。
 本実施の形態では、収音回数を少なくすることができるため、測定に起因する誤差を低減することができる。例えば、収音回数が多くなると、測定途中で、受聴者Uの姿勢が変化してしまうおそれがある。受聴者Uの姿勢が変化してしまうと、適切な伝達特性を取得することができなくなってしまう。本実施の形態では、収音回数を少なくすることができるため、測定時間を短縮することができる。測定に起因する誤差を低減することができる。
 図9を用いて、本実施の形態にかかる処理方法について説明する。図9は、本実施の形態にかかる処理方法を示すフローチャートである。なお、既に説明した内容については、適宜、説明を省略する。
 両耳間距離取得部214が両耳間距離Dを取得する(S21)。具体的には、図8に示すスピーカ配置において、横方向測定が行われる。両耳間距離取得部214は、横方向測定で得られた第1~第3の収音信号に基づいて、両耳間距離Dを算出する。横方向測定は、φ=90°に限られるものではなく、φを任意の角度とした状態で行うことができる。
 両耳間距離Dは、横方向測定以外の測定で取得することも可能である。例えば、カメラ画像により両耳間距離Dを求めることも可能である。処理装置210のカメラが、受聴者Uの頭部を撮像する。処理部63が画像処理により、両耳間距離Dを算出してもよい。
 あるいは、受聴者Uやその他の人が、スケールなどの測定機器を用いて両耳間距離Dを測定してもよい。この場合、受聴者U等が、操作部62を操作して、測定値を入力する。さらに、他の装置などで予め受聴者Uの両耳間距離Dが測定されていてもよい。この場合、他の装置から処理装置210に測定値が予め送信されていてもよく、処理装置210がその都度読み出すようにしてもよい。
 正面時間差取得部213が、正面時間差ITD0を取得する(S22)。ここでは、図6に示すスピーカ配置において、正面測定が行われる。正面時間差取得部213は、正面測定で得られた第1~第3の収音信号に基づいて、正面時間差ITD0を算出する。なお、他の装置などで予め正面時間差ITD0が測定されていてもよい。この場合、他の装置から処理装置210に測定値が予め送信されていてもよく、処理装置210がその都度読み出すようにしてもよい。
 両耳間距離D、及び正面時間差ITD0が、予め他の装置で測定されている場合、切替器7が第3の接続状態に切替えることが不要となる。切替器7は第1の接続状態と第2の接続状態とを切替えるように構成されていればよい。
 入射時間差算出部215が、入射時間差ITDθを算出する(S23)。上記の通り、入射時間差算出部215は、角度θ、正面時間差ITD0、両耳間距離Dを用いて、入射時間差ITDθを算出する。
 次に、特性測定により、収音信号取得部212が第1及び第2の収音信号を取得する(S24)。そして、伝達特性生成部216は、第1及び第2の収音信号との間に入射時間差ITDθに応じた遅延時間を与えて、伝達特性を生成する(S25)。上記の処理を、スピーカの配置数だけ繰り返し行う。
 このようにすることで、受聴者U個人に適した伝達特性を生成することができる。なお、横方向測定、特性測定、正面測定の順番は、図9のフローチャートに示す順番に限られるものではない。すなわち、S21~S24の処理の順番は特に限定されるものではない。例えば、S22の後にS21が実施されていてもよい。
 なお、両耳間距離D、及び入射時間差ITDθを求めるための両耳時間差モデルは、式(1)に示す計算式に限定されるものではない。例えば、受聴者Uの顔の輪郭全体を円弧で近似してもよい。あるいは、顔の輪郭全体を直線や多項式で近似してもよい。
 図2では、受聴者Uの前方にステレオスピーカ5が配置されている測定構成を示したが、スピーカは1つであってもよい。この場合、Lchのスピーカの特性測定では、スピーカを受聴者Uの左前方に配置し、Rchのスピーカの特性測定ではスピーカを受聴者Uの右前方に配置する。この場合、モノラル出力端子での測定が可能となる。
 なお、図5に示す正面測定では、受聴者Uの真正面にスピーカ5Cを配置することが好ましい。すなわち、左右方向におけるスピーカ5Cの中心が、受聴者Uの顔の中心と一致することが好ましい。スピーカ5Cが受聴者Uの真正面からわずかにずれてしまうと、正面時間差ITD0に測定誤差が含まれてしまう。従って、スピーカ5Cがφ=0の方向、つまり真正面に配置することが重要となる。以下、スピーカ5Cが受聴者Uの真正面に配置されているかを確認する方法について、図10を用いて説明する。
 図10は、スピーカ5Cが受聴者Uの真正面、つまり、φ=0°の位置に配置されているかを確認するための構成を示している。図10に示すように、処理装置210は、第1カメラ251と第2カメラ252とを備えている。例えば、タブレットPCやスマートホンに搭載されているインカメラとアウトカメラが、それぞれ第1カメラ251、第2カメラ252となる。
 第1カメラ251が受聴者Uの顔を撮像し、第2カメラ252が受聴者Uの前方に配置されたスピーカ5Cを撮像する。そして、処理装置210は、第1カメラ251の撮像画像と第2カメラ252の撮像画像とを画像処理することで、スピーカ5Cが受聴者Uの真正面に配置されているか否かを判定する。例えば、処理装置210は、画像処理により、スピーカ5Cが配置された角度φを求める。処理装置210は、角度φが閾値以下であるか否かに応じて、スピーカ5Cが真正面に配置されているか否かを判定する。
 図10に示すように、スピーカ5Cが受聴者Uの真正面に配置されていない場合、スピーカ5Cが左右方向にずれていることを処理装置210が受聴者Uに知らせる。例えば、処理装置210は、表示画面中にずれている方向を表示する。この場合、受聴者Uがスピーカ5Cと受聴者Uとの相対位置を調整する。
 スピーカの角度φが閾値以下となった場合、処理装置210は、正面測定を可能とさせる。例えば、処理装置210は、正面測定ボタンを表示画面に表示する。受聴者Uが正面測定ボタンをタッチすることで、正面測定が開始する。このようにすることで、より正確に正面時間差ITD0を測定することができる。
 上記処理のうちの一部又は全部は、コンピュータプログラムによって実行されてもよい。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記実施の形態に限られたものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
 この出願は、2018年3月22日に出願された日本出願特願2018-53764を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本開示は、収音信号を処理する処理装置に適用可能である。
 U 受聴者
 7 切替器
 10 頭外定位処理部
 11 畳み込み演算部
 12 畳み込み演算部
 21 畳み込み演算部
 22 畳み込み演算部
 24 加算器
 25 加算器
 41 フィルタ部
 42 フィルタ部
 43 ヘッドホン
 200 測定装置
 210 処理装置
 211 測定信号生成部
 212 収音信号取得部
 213 正面時間差取得部
 214 両耳間距離取得部
 215 入射時間差算出部
 216 伝達特性生成部

Claims (6)

  1.  音源から出力される音を受聴者に装着された左右のマイクにより収音することで得られた収音信号を処理する処理装置であって、
     前記受聴者の正面前方から角度θだけ傾いた方向に前記音源が配置された状態での特性測定を行うため、前記音源から出力される測定信号を生成する測定信号生成部と、
     前記左右のマイクで収音された収音信号が入力されるモノラル入力端子と、
     前記モノラル入力端子を介して、前記左右のマイクで収音された収音信号を取得する収音信号取得部と、
     左の前記マイクのみから収音された第1の収音信号、及び、右の前記マイクのみから収音された第2の収音信号がそれぞれ前記モノラル入力端子に入力されるように接続状態を切替える切替器と、
     前記受聴者の両耳間距離を取得する両耳間距離取得部と、
     前記受聴者の正面前方に配置された前記音源から左右の前記マイクまでの到達時間の時間差を正面時間差として取得する正面時間差取得部と、
     前記角度θと、前記正面時間差と、前記両耳間距離と、に基づいて、入射時間差を算出する入射時間差算出部と、
     前記特性測定において取得された前記第1及び第2の収音信号に前記入射時間差に応じた遅延を与えて、前記音源から前記左右のマイクまでの伝達特性を算出する伝達特性生成部と、を備えた処理装置。
  2.  前記切替器は、左の前記マイクのみから収音された第1の収音信号、右の前記マイクのみから収音された第2の収音信号、及び左右の前記マイクから収音された第3の収音信号がそれぞれ前記モノラル入力端子に入力されるように接続状態を切替え、
     前記収音信号取得部は、前記受聴者の正面前方に前記音源が配置された状態の正面測定で、前記第1~第3の収音信号をそれぞれ取得し、
     前記正面時間差取得部は、前記正面測定で取得された前記第1~第3の収音信号に基づいて、前記正面時間差を算出する請求項1に記載の処理装置。
  3.  前記収音信号取得部は、前記受聴者の横方向に前記音源が配置された状態の横方向測定で、前記第1~第3の収音信号をそれぞれ取得し、
     前記両耳間距離取得部は、前記横方向測定で取得された前記第1~第3の収音信号に基づいて、前記両耳間距離を算出する請求項2に記載の処理装置。
  4.  前記入射時間差算出部は、
     前記角度θを入射角φ、前記両耳間距離をD、音速をc、推定時間差をITDとして、次の式により、推定時間差ITDを求めて、
     φ+sinφ=2c×ITD/D、
     前記推定時間差ITDに、前記正面時間差を加えることで、前記入射時間差を算出する請求項1~3のいずれか1項に記載の処理装置。
  5.  音源から出力される音を受聴者に装着された左右のマイクにより収音することで得られた収音信号を処理する処理装置における処理方法であって、
     前記処理装置は、前記受聴者の正面前方から角度θだけ傾いた方向に配置された前記音源に測定信号を出力することで特性測定を行い、
     前記処理装置は、モノラル入力端子を備え、
     前記モノラル入力端子と前記左右のマイクとの間には、切替器が設けられており、
     前記切替器は、左の前記マイクのみから収音された第1の収音信号、及び、右の前記マイクのみから収音された第2の収音信号がそれぞれ前記モノラル入力端子に入力されるよう、前記モノラル入力端子への入力を切替え、
     前記処理方法は、
     前記受聴者の両耳間距離を取得するステップと、
     前記受聴者の正面前方に配置された前記音源から左右の前記マイクまでの到達時間の時間差を正面時間差として取得するステップと、
     前記角度θと、前記正面時間差と、前記両耳間距離と、に基づいて、入射時間差を算出するステップと、
     前記特性測定において取得された前記第1及び第2の収音信号に前記入射時間差に応じた遅延を与えて、前記音源から前記左右のマイクまでの伝達特性を算出するステップと、を備えた処理方法。
  6.  左右のマイクにより収音することで得られた収音信号を処理する処理方法をコンピュータに実行させるプログラムであって、
     前記コンピュータは、受聴者の正面前方から角度θだけ傾いた方向に配置された音源に測定信号を出力することで特性測定を行い、
     前記コンピュータは、モノラル入力端子を備え、
     前記モノラル入力端子と前記左右のマイクとの間には、切替器が設けられており、
     前記切替器は、左の前記マイクのみから収音された第1の収音信号、及び、右の前記マイクのみから収音された第2の収音信号がそれぞれ前記モノラル入力端子に入力されるよう、前記モノラル入力端子への入力を切替え、
     前記処理方法は、
     前記受聴者の両耳間距離を取得するステップと、
     前記受聴者の正面前方に配置された前記音源から左右の前記マイクまでの到達時間の時間差を正面時間差として取得するステップと、
     前記角度θと、前記正面時間差と、前記両耳間距離と、に基づいて、入射時間差を算出するステップと、
     前記特性測定において取得された前記第1及び第2の収音信号に前記入射時間差に応じた遅延を与えて、前記音源から前記左右のマイクまでの伝達特性を算出するステップと、を備えたプログラム。
PCT/JP2019/009619 2018-03-22 2019-03-11 処理装置、処理方法、及びプログラム WO2019181599A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/016,674 US11297427B2 (en) 2018-03-22 2020-09-10 Processing device, processing method, and program for processing sound pickup signals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-053764 2018-03-22
JP2018053764A JP6981325B2 (ja) 2018-03-22 2018-03-22 処理装置、処理方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/016,674 Continuation US11297427B2 (en) 2018-03-22 2020-09-10 Processing device, processing method, and program for processing sound pickup signals

Publications (1)

Publication Number Publication Date
WO2019181599A1 true WO2019181599A1 (ja) 2019-09-26

Family

ID=67986198

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/009619 WO2019181599A1 (ja) 2018-03-22 2019-03-11 処理装置、処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US11297427B2 (ja)
JP (1) JP6981325B2 (ja)
WO (1) WO2019181599A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153552A (zh) * 2020-09-10 2020-12-29 海菲曼(天津)科技有限公司 一种基于音频分析的自适应立体声系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679446B (zh) * 2017-08-17 2019-03-15 平安科技(深圳)有限公司 人脸姿态检测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08111899A (ja) * 1994-10-13 1996-04-30 Matsushita Electric Ind Co Ltd 両耳聴装置
JPH10294999A (ja) * 1997-04-17 1998-11-04 Nippon Telegr & Teleph Corp <Ntt> 仮想音像定位用音響信号合成装置
JP2017028365A (ja) * 2015-07-16 2017-02-02 株式会社Jvcケンウッド 音場再生装置、音場再生方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3435141B2 (ja) 2001-01-09 2003-08-11 松下電器産業株式会社 音像定位装置、並びに音像定位装置を用いた会議装置、携帯電話機、音声再生装置、音声記録装置、情報端末装置、ゲーム機、通信および放送システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08111899A (ja) * 1994-10-13 1996-04-30 Matsushita Electric Ind Co Ltd 両耳聴装置
JPH10294999A (ja) * 1997-04-17 1998-11-04 Nippon Telegr & Teleph Corp <Ntt> 仮想音像定位用音響信号合成装置
JP2017028365A (ja) * 2015-07-16 2017-02-02 株式会社Jvcケンウッド 音場再生装置、音場再生方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153552A (zh) * 2020-09-10 2020-12-29 海菲曼(天津)科技有限公司 一种基于音频分析的自适应立体声系统

Also Published As

Publication number Publication date
US11297427B2 (en) 2022-04-05
JP2019168481A (ja) 2019-10-03
US20200413190A1 (en) 2020-12-31
JP6981325B2 (ja) 2021-12-15

Similar Documents

Publication Publication Date Title
US9609436B2 (en) Systems and methods for audio creation and delivery
US20170026751A1 (en) Acoustic output device
CN110612727B (zh) 头外定位滤波器决定系统、头外定位滤波器决定装置、头外定位决定方法以及记录介质
US9392367B2 (en) Sound reproduction apparatus and sound reproduction method
US10142733B2 (en) Head-related transfer function selection device, head-related transfer function selection method, head-related transfer function selection program, and sound reproduction device
US10412530B2 (en) Out-of-head localization processing apparatus and filter selection method
JP6515720B2 (ja) 頭外定位処理装置、頭外定位処理方法、及びプログラム
US11297427B2 (en) Processing device, processing method, and program for processing sound pickup signals
JP6500664B2 (ja) 音場再生装置、音場再生方法、及びプログラム
JP6981330B2 (ja) 頭外定位処理装置、頭外定位処理方法、及びプログラム
JP6658026B2 (ja) フィルタ生成装置、フィルタ生成方法、及び音像定位処理方法
US11937072B2 (en) Headphones, out-of-head localization filter determination device, out-of-head localization filter determination system, out-of-head localization filter determination method, and program
JP7395906B2 (ja) ヘッドホン、頭外定位フィルタ決定装置、及び頭外定位フィルタ決定方法
JP7404736B2 (ja) 頭外定位フィルタ決定システム、頭外定位フィルタ決定方法、及びプログラム
KR102613035B1 (ko) 위치보정 기능의 이어폰 및 이를 이용하는 녹음방법
JP2019169836A (ja) マイクシステム、及び収音方法
JP6988321B2 (ja) 信号処理装置、信号処理方法、及びプログラム
JP2023080769A (ja) 再生制御装置、頭外定位処理システム、及び再生制御方法
Lezzoum et al. Assessment of sound source localization of an intra-aural audio wearable device for audio augmented reality applications
KR20150081541A (ko) 사용자의 머리전달함수 기반 음향 조절 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19770746

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19770746

Country of ref document: EP

Kind code of ref document: A1