WO2020166216A1 - 処理装置、処理方法、再生方法、及びプログラム - Google Patents

処理装置、処理方法、再生方法、及びプログラム Download PDF

Info

Publication number
WO2020166216A1
WO2020166216A1 PCT/JP2019/050601 JP2019050601W WO2020166216A1 WO 2020166216 A1 WO2020166216 A1 WO 2020166216A1 JP 2019050601 W JP2019050601 W JP 2019050601W WO 2020166216 A1 WO2020166216 A1 WO 2020166216A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
frequency
data
envelope
characteristic
Prior art date
Application number
PCT/JP2019/050601
Other languages
English (en)
French (fr)
Inventor
敬洋 下条
村田 寿子
正也 小西
優美 藤井
邦明 高地
永井 俊明
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Priority to EP19914812.3A priority Critical patent/EP3926977A4/en
Priority to CN201980090944.3A priority patent/CN113412630B/zh
Publication of WO2020166216A1 publication Critical patent/WO2020166216A1/ja
Priority to US17/400,672 priority patent/US11997468B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to a processing device, a processing method, a reproducing method, and a program.
  • the recording and playback system disclosed in Patent Document 1 uses filter means for processing the signal supplied to the loudspeaker.
  • the filter means comprises two filter design steps.
  • the transfer function between the position of the virtual sound source and the specific position of the reproduced sound field is described in the form of the filter (A).
  • the specific position of the reproduced sound field is the ear or head region of the listener.
  • a transfer function filter (A) is used for crosstalk cancellation used to invert the electroacoustic transfer path or paths (C) between the loudspeaker input and the specific position. It is convolved with the matrix of filters (Hx).
  • the matrix of the crosstalk canceling filter (Hx) is created by measuring the impulse response.
  • a measurement signal impulse sound, etc.
  • ch 2-channel
  • the processing device To record. Then, the processing device generates a filter based on the collected sound signal obtained by collecting the measurement signal. By convolving the generated filter with the audio signal of 2ch, out-of-head localization reproduction can be realized.
  • the characteristics from the headphones to the ear to the eardrum are measured with a microphone installed in the listener's own ear. To do.
  • Patent Document 2 discloses a method for generating an inverse filter of the ear canal transfer function.
  • the amplitude component of the ear canal transfer function is corrected in order to prevent treble noise due to the notch. Specifically, when the gain of the amplitude component is below the gain threshold, the notch is adjusted by correcting the gain value. Then, an inverse filter is generated based on the corrected ear canal transfer function.
  • a microphone installed in the listener's own ear When performing out-of-head localization, it is preferable to measure the characteristics with a microphone installed in the listener's own ear.
  • impulse response measurement or the like is performed with a microphone and headphones attached to the listener's ear.
  • a filter suitable for the listener By using the characteristics of the listener himself, a filter suitable for the listener can be generated. For such filter generation and the like, it is desired to appropriately process the sound pickup signal obtained by the measurement.
  • the present embodiment has been made in view of the above points, and an object thereof is to provide a processing device, a processing method, a reproducing method, and a program that can appropriately process a sound pickup signal.
  • the processing apparatus generates scale conversion data by performing envelope conversion and data interpolation on an envelope calculation unit that calculates an envelope for the frequency characteristic of the sound pickup signal and the frequency data of the envelope.
  • a scale conversion unit a scale factor conversion data is divided into a plurality of frequency bands, a feature value for each frequency band is obtained, a normalization coefficient calculation unit that calculates a normalization coefficient based on the feature value, and the normalization unit.
  • a normalization unit that normalizes the sound pickup signal in the time domain using the normalization coefficient.
  • the processing method a step of calculating an envelope for the frequency characteristics of the sound pickup signal, by performing scale conversion and data interpolation of the frequency data of the envelope, to generate scale conversion data, Dividing the scale conversion data into a plurality of frequency bands, obtaining a characteristic value for each frequency band, calculating a normalization coefficient based on the characteristic value, and using the normalization coefficient, in the time domain Normalizing the picked-up signal.
  • the program according to the present embodiment is a program for causing a computer to execute a processing method, and the processing method includes a step of calculating an envelope with respect to a frequency characteristic of a sound pickup signal, and a frequency of the envelope.
  • the processing method includes a step of calculating an envelope with respect to a frequency characteristic of a sound pickup signal, and a frequency of the envelope.
  • the out-of-head localization process according to the present embodiment is to perform the out-of-head localization process using the spatial acoustic transfer characteristics and the external auditory meatus transfer characteristics.
  • the spatial acoustic transfer characteristic is a transfer characteristic from a sound source such as a speaker to the ear canal.
  • the ear canal transfer characteristic is a transfer characteristic from a speaker unit of headphones or earphones to an eardrum.
  • the spatial acoustic transfer characteristics are measured without wearing headphones or earphones, and the external auditory meatus transfer characteristics are measured with wearing headphones or earphones.
  • Out-of-head localization processing is realized.
  • the present embodiment is characterized by a microphone system for measuring spatial acoustic transfer characteristics or ear canal transfer characteristics.
  • the out-of-head localization process is executed by a user terminal such as a personal computer, a smart phone, or a tablet PC.
  • the user terminal is an information processing apparatus having a processing unit such as a processor, a storage unit such as a memory or a hard disk, a display unit such as a liquid crystal monitor, a touch panel, a button, a keyboard, an input unit such as a mouse.
  • the user terminal may have a communication function of transmitting and receiving data.
  • an output unit (output unit) having headphones or earphones is connected to the user terminal.
  • the connection between the user terminal and the output means may be wired or wireless.
  • FIG. 1 shows a block diagram of an out-of-head localization processing device 100, which is an example of the sound field reproducing device according to the present embodiment.
  • the out-of-head localization processing device 100 reproduces a sound field for the user U who wears the headphones 43. Therefore, the out-of-head localization processing device 100 performs sound image localization processing on the Lch and Rch stereo input signals XL and XR.
  • the Lch and Rch stereo input signals XL and XR are analog audio reproduction signals output from a CD (Compact Disc) player or digital audio data such as mp3 (MPEG Audio Layer-3).
  • the audio reproduction signal or digital audio data is collectively referred to as a reproduction signal. That is, the stereo input signals XL and XR of Lch and Rch are reproduction signals.
  • out-of-head localization processing device 100 is not limited to a physically single device, and a part of processing may be performed by a different device.
  • a part of the processing may be performed by a smart phone or the like, and the remaining processing may be performed by a DSP (Digital Signal Processor) or the like built in the headphones 43.
  • DSP Digital Signal Processor
  • the out-of-head localization processing device 100 includes an out-of-head localization processing unit 10, a filter unit 41 that stores an inverse filter Linv, a filter unit 42 that stores an inverse filter Rinv, and headphones 43.
  • the out-of-head localization processing unit 10, the filter unit 41, and the filter unit 42 can be specifically realized by a processor or the like.
  • the out-of-head localization processing unit 10 includes convolution operation units 11 to 12, 21 to 22, which store spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs, and adders 24 and 25.
  • the convolution operation units 11 to 12 and 21 to 22 perform the convolution process using the spatial acoustic transfer characteristics.
  • the stereo input signals XL and XR from a CD player or the like are input to the out-of-head localization processing unit 10. Spatial acoustic transfer characteristics are set in the out-of-head localization processing unit 10.
  • the out-of-head localization processing unit 10 convolves a filter of spatial acoustic transfer characteristics (hereinafter, also referred to as spatial acoustic filter) with the stereo input signals XL and XR of each channel.
  • the spatial acoustic transfer characteristic may be a head-related transfer function HRTF measured by the person's head or auricle, a dummy head, or a third-party head-related transfer function.
  • the spatial acoustic transfer function is a set of four spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs.
  • the data used for convolution in the convolution operation units 11, 12, 21, and 22 becomes a spatial acoustic filter.
  • a spatial acoustic filter is generated by cutting out the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs with a predetermined filter length.
  • Each of the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs is acquired in advance by impulse response measurement or the like.
  • the user U wears a microphone on each of the left and right ears.
  • the left and right speakers arranged in front of the user U respectively output impulse sounds for performing impulse response measurement.
  • the measurement signal such as the impulse sound output from the speaker is picked up by the microphone.
  • the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs are acquired based on the sound pickup signal from the microphone.
  • Spatial acoustic transfer characteristic Hls between left speaker and left microphone, spatial acoustic transfer characteristic Hlo between left speaker and right microphone, spatial acoustic transfer characteristic Hro between right speaker and left microphone, right speaker and right microphone The spatial acoustic transfer characteristic Hrs between and is measured.
  • the convolution operation unit 11 convolves the spatial acoustic filter according to the spatial acoustic transfer characteristic Hls with respect to the Lch stereo input signal XL.
  • the convolution operation unit 11 outputs the convolution operation data to the adder 24.
  • the convolution operation unit 21 convolves a spatial acoustic filter according to the spatial acoustic transfer characteristic Hro with respect to the Rch stereo input signal XR.
  • the convolution operation unit 21 outputs the convolution operation data to the adder 24.
  • the adder 24 adds the two convolution operation data and outputs the result to the filter unit 41.
  • the convolution operation unit 12 convolves a spatial acoustic filter according to the spatial acoustic transfer characteristic Hlo with the Lch stereo input signal XL.
  • the convolution operation unit 12 outputs the convolution operation data to the adder 25.
  • the convolution operation unit 22 convolves a spatial acoustic filter according to the spatial acoustic transfer characteristic Hrs with the Rch stereo input signal XR.
  • the convolution operation unit 22 outputs the convolution operation data to the adder 25.
  • the adder 25 adds the two convolution operation data and outputs the result to the filter unit 42.
  • Inverse filters Linv and Rinv that cancel the headphone characteristics are set in the filter units 41 and 42. Then, the inverse filters Linv and Rinv are convolved with the reproduction signal (convolution operation signal) processed by the out-of-head localization processing unit 10.
  • the filter unit 41 convolves the Lch signal from the adder 24 with the inverse filter Linv having the headphone characteristic on the Lch side.
  • the filter unit 42 convolves the Rch signal from the adder 25 with the inverse filter Rinv having the headphone characteristic on the Rch side.
  • the inverse filters Linv and Rinv cancel the characteristics from the headphone unit to the microphone when the headphones 43 are attached.
  • the microphone may be placed anywhere between the entrance to the ear canal and the eardrum.
  • the filter unit 41 outputs the processed Lch signal YL to the left unit 43L of the headphones 43.
  • the filter unit 42 outputs the processed Rch signal YR to the right unit 43R of the headphones 43.
  • the user U wears the headphones 43.
  • the headphones 43 output the Lch signal YL and the Rch signal YR (hereinafter, the Lch signal YL and the Rch signal YR are also collectively referred to as a stereo signal) to the user U. Thereby, the sound image localized outside the head of the user U can be reproduced.
  • the out-of-head localization processing device 100 performs the out-of-head localization process using the spatial acoustic filters according to the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs and the inverse filters Linv and Rinv of the headphone characteristics.
  • the spatial acoustic filter according to the spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs and the inverse filters Linv and Rinv of the headphone characteristic are collectively referred to as an out-of-head localization filter.
  • the out-of-head localization filter is composed of four spatial acoustic filters and two inverse filters.
  • the out-of-head localization processing device 100 performs the out-of-head localization processing by performing convolution calculation processing on the stereo reproduction signal using a total of six out-of-head localization filters.
  • the out-of-head localization filter is preferably based on the user U's personal measurements.
  • the out-of-head localization filter is set based on the sound collection signal collected by the microphone mounted on the ear of the user U.
  • the spatial acoustic filter and the headphone characteristic inverse filters Linv and Rinv are filters for audio signals.
  • the out-of-head localization processing device 100 executes out-of-head localization processing.
  • the processing for generating the inverse filters Linv and Rinv is one of the technical features. The process for generating the inverse filter will be described below.
  • FIG. 2 shows a configuration for measuring the transfer characteristic of the user U.
  • the measuring device 200 includes a microphone unit 2, headphones 43, and a processing device 201.
  • the measured person 1 is the same person as the user U in FIG.
  • the processing device 201 of the measurement device 200 performs arithmetic processing for appropriately generating a filter according to the measurement result.
  • the processing device 201 is a personal computer (PC), a tablet terminal, a smart phone, or the like, and includes a memory and a processor.
  • the memory stores a processing program, various parameters, measurement data, and the like.
  • the processor executes the processing program stored in the memory. Each process is executed by the processor executing the processing program.
  • the processor may be, for example, a CPU (Central Processing Unit), an FPGA (Field-Programmable Gate Array), a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or a GPU (Graphics Processing Unit). ..
  • a microphone unit 2 and headphones 43 are connected to the processing device 201.
  • the microphone unit 2 may be built in the headphones 43.
  • the microphone unit 2 includes a left microphone 2L and a right microphone 2R.
  • the left microphone 2L is attached to the left ear 9L of the user U.
  • the right microphone 2R is attached to the right ear 9R of the user U.
  • the processing device 201 may be the same processing device as the out-of-head localization processing device 100, or may be a different processing device. Further, earphones can be used instead of the headphones 43.
  • the headphone 43 has a headphone band 43B, a left unit 43L, and a right unit 43R.
  • the headphone band 43B connects the left unit 43L and the right unit 43R.
  • the left unit 43L outputs a sound toward the left ear 9L of the user U.
  • the right unit 43R outputs a sound toward the right ear 9R of the user U.
  • the headphone 43 is a closed type, an open type, a semi-open type, a semi-closed type, or the like, and any type of headphone may be used.
  • the user U wears the headphones 43 while the microphone unit 2 is worn by the user U.
  • the left unit 43L and the right unit 43R of the headphones 43 are attached to the left ear 9L and the right ear 9R to which the left microphone 2L and the right microphone 2R are attached, respectively.
  • the headphone band 43B generates a biasing force that presses the left unit 43L and the right unit 43R against the left ear 9L and the right ear 9R, respectively.
  • the left microphone 2L picks up the sound output from the left unit 43L of the headphones 43.
  • the right microphone 2R picks up the sound output from the right unit 43R of the headphones 43.
  • the microphone parts of the left microphone 2L and the right microphone 2R are arranged at sound collecting positions near the external ear canal.
  • the left microphone 2L and the right microphone 2R are configured not to interfere with the headphones 43. That is, the user U can wear the headphones 43 in a state where the left microphone 2L and the right microphone 2R are arranged at appropriate positions of the left ear 9L and the right ear 9R.
  • the processing device 201 outputs a measurement signal to the headphones 43.
  • the headphones 43 generate an impulse sound or the like.
  • the impulse sound output from the left unit 43L is measured by the left microphone 2L.
  • the right microphone 2R measures the impulse sound output from the right unit 43R.
  • Impulse response measurement is performed by the microphones 2L and 2R acquiring the sound pickup signal when the measurement signal is output.
  • FIG. 3 is a control block diagram showing the processing device 201.
  • the processing device 201 includes a measurement signal generation unit 211, a sound pickup signal acquisition unit 212, an envelope calculation unit 214, and a scale conversion unit 215. Furthermore, the processing device 201 includes a normalization coefficient calculation unit 216, a normalization unit 217, a conversion unit 218, a dip correction unit 219, and a filter generation unit 220.
  • the measurement signal generation unit 211 includes a D/A converter and an amplifier, and generates a measurement signal for measuring the ear canal transfer characteristic.
  • the measurement signal is, for example, an impulse signal or a TSP (Time Stretched Pulse) signal.
  • the measurement device 200 performs impulse response measurement using impulse sound as the measurement signal.
  • the left microphone 2L and the right microphone 2R of the microphone unit 2 pick up the measurement signals, respectively, and output the picked up signals to the processing device 201.
  • the sound collection signal acquisition unit 212 acquires the sound collection signals collected by the left microphone 2L and the right microphone 2R.
  • the collected sound signal acquisition unit 212 may include an A/D converter that performs A/D conversion on the collected sound signals from the microphones 2L and 2R.
  • the picked-up signal acquisition unit 212 may synchronously add the signals obtained by a plurality of measurements.
  • the sound pickup signal in the time domain is called ECTF.
  • the envelope calculation unit 214 calculates the envelope of the frequency characteristics of the collected sound signal.
  • the envelope calculation unit 214 can obtain the envelope using the cepstrum analysis.
  • the envelope calculation unit 214 calculates the frequency characteristic of the collected sound signal (ECTF) by discrete Fourier transform or discrete cosine transform.
  • the envelope calculation unit 214 calculates the frequency characteristic by, for example, performing FFT (Fast Fourier Transform) on the ECTF in the time domain.
  • the frequency characteristic includes a power spectrum and a phase spectrum.
  • the envelope calculation unit 214 may generate an amplitude spectrum instead of the power spectrum.
  • the envelope calculation unit 214 obtains a cepstrum by performing an inverse Fourier transform on the logarithmic transform spectrum.
  • the envelope calculation unit 214 applies a lifter to the cepstrum.
  • the lifter is a low-pass lifter that passes only low frequency band components.
  • the envelope calculation unit 214 may use a method other than the cepstrum analysis.
  • the envelope may be calculated by applying a general smoothing method to the logarithmically converted amplitude value.
  • a smoothing method a simple moving average, a Savitzky-Golay filter, a smoothing spline, etc. can be used.
  • the scale conversion unit 215 changes the scale of the envelope data so that the discrete spectrum data are evenly spaced on the logarithmic axis.
  • the envelope data obtained by the envelope calculation unit 214 are equidistant in frequency. That is, since the envelope data are evenly spaced on the frequency linear axis, they are not evenly spaced on the frequency logarithmic axis. Therefore, the scale conversion unit 215 performs an interpolation process on the envelope data so that the envelope data has equal intervals on the frequency logarithmic axis.
  • the scale conversion unit 215 interpolates the data in the low frequency band with a rough data interval. Specifically, the scale conversion unit 215 obtains discrete envelope data arranged at equal intervals on the logarithmic axis by performing interpolation processing such as three-dimensional spline interpolation. Envelope data that has undergone scale conversion is referred to as scale conversion data.
  • the scale conversion data is a spectrum in which the frequency and the power value are associated with each other.
  • the scale conversion unit 215 is not limited to the logarithmic scale and may convert the envelope data into a scale close to human hearing (referred to as a hearing scale).
  • scale conversion may be performed using a logarithmic scale (Log scale), a mel (mel) scale, a Bark scale, an ERB (Equivalent Rectangular Bandwidth) scale, or the like.
  • the scale conversion unit 215 scales the envelope data with an auditory scale by data interpolation. For example, the scale conversion unit 215 makes the data in the low frequency band dense by interpolating the data in the low frequency band having a rough data interval in the auditory scale. Data that is equidistant on the auditory scale is dense on the low frequency band and coarse on the high frequency band on the linear scale. By doing so, the scale conversion unit 215 can generate scale conversion data at equal intervals on the auditory scale. Of course, the scale conversion data does not have to be completely equidistant data on the auditory scale.
  • the normalization coefficient calculation unit 216 calculates the normalization coefficient based on the scale conversion data. Therefore, the normalization coefficient calculation unit 216 divides the scale conversion data into a plurality of frequency bands and calculates the characteristic value for each frequency band. Then, the normalization coefficient calculation unit 216 calculates the normalization coefficient based on the feature value for each frequency band. The normalization coefficient calculation unit 216 calculates the normalization coefficient by weighting and adding the feature values for each frequency band.
  • the normalization coefficient calculation unit 216 divides the scale conversion data into four frequency bands (hereinafter, referred to as first to fourth bands).
  • the first band is at least the minimum frequency (for example, 10 Hz) and less than 1000 Hz.
  • the first band is a range that changes depending on whether or not the headphones 43 fit.
  • the second band is 1000 Hz or more and less than 4 kHz.
  • the second band is a range in which the characteristics of the headphones themselves appear regardless of the individual.
  • the third band is 4 kHz or more and less than 12 kHz.
  • the third characteristic is the range in which the characteristic of the individual is most represented.
  • the fourth band has a frequency of 12 kHz or more and a maximum frequency (for example, 22.4 kHz) or less.
  • the fourth band is a range that changes every time the headphones are worn.
  • the range of each band is an example, and the range is not limited to the above values.
  • the characteristic value is, for example, four values of the maximum value, the minimum value, the average value, and the median value of the scale conversion data in each band.
  • the four values of the first band are Amax (maximum value), Amin (minimum value), Aave (average value), and Amed (median value).
  • the four values of the second band are Bmax, Bmin, Bave, and Bmed.
  • the four values of the third band are Cmax, Cmin, Cave, and Cmed
  • the four values of the fourth band are Dmax, Dmin, Dave, and Dmed.
  • the normalization coefficient calculator 216 calculates a reference value for each band based on the four feature values.
  • the reference value of the first band is Astd
  • Dstd Dmax ⁇ 0.1+Dmin ⁇ 0.1+Dave ⁇ 0.5+Dmed ⁇ 0.3 (4)
  • the normalization coefficient Std is expressed by the following equation (5).
  • Std Astd ⁇ 0.25+Bstd ⁇ 0.4+Cstd ⁇ 0.25+Dstd ⁇ 0.1 (5)
  • the normalization coefficient calculation unit 216 calculates the normalization coefficient Std by weighting and adding the feature values for each band.
  • the normalization coefficient calculation unit 216 divides into four frequency bands and extracts four feature values from each band.
  • the normalization coefficient calculation unit 216 weights and adds 16 feature values.
  • the variance value of each band may be calculated and the weighting may be changed according to the variance value.
  • An integral value or the like may be used as the characteristic value.
  • the number of characteristic values in one band is not limited to four, and may be five or more or three or less. It suffices if at least one of the maximum value, the minimum value, the average value, the median value, the integral value, and the variance value is the feature value.
  • the weighted addition coefficient for one or more of the maximum value, the minimum value, the average value, the median value, the integral value, and the variance value may be zero.
  • the normalization unit 217 normalizes the sound pickup signal using the normalization coefficient. Specifically, the normalization unit 217 calculates Std ⁇ ECTF as the normalized sound pickup signal. The sound pickup signal after the normalization is referred to as a normalized ECTF. The normalization unit 217 can normalize the ECTF to an appropriate level by using the normalization coefficient.
  • the conversion unit 218 calculates the frequency characteristic of the normalized ECTF by the discrete Fourier transform or the discrete cosine transform. For example, the conversion unit 218 calculates the frequency characteristic by performing FFT (Fast Fourier Transform) on the normalized ECTF in the time domain.
  • the frequency characteristics of the normalized ECTF include a power spectrum and a phase spectrum.
  • the conversion unit 218 may generate an amplitude spectrum instead of the power spectrum.
  • the power spectrum and the phase spectrum of the normalized ECTF will be referred to as a normalized power spectrum and a normalized phase spectrum.
  • FIG. 5 shows power spectra before and after normalization. By performing the normalization, the power value of the power spectrum changes to an appropriate level.
  • the dip correction unit 219 corrects the dip in the normalized power spectrum.
  • the dip correction unit 219 determines a portion where the power value of the normalized power spectrum is equal to or less than the threshold value as a dip, and corrects the power value of the portion where the dip occurs. For example, the dip correction unit 219 corrects the dip by interpolating the portion below the threshold value.
  • the normalized power spectrum after dip correction is used as the corrected power spectrum.
  • the dip correction unit 219 divides the normalized power spectrum into two bands and sets different thresholds for each band.
  • the boundary frequency is 12 kHz, 12 kHz or less is the low frequency band, and 12 kHz or more is the high frequency band.
  • the threshold of the low frequency band is the first threshold TH1
  • the threshold of the high frequency band is the second threshold TH2.
  • the first threshold TH1 is preferably lower than the second threshold TH2.
  • the first threshold TH1 can be set to ⁇ 13 dB and the second threshold TH2 can be set to ⁇ 9 dB.
  • the dip correction unit 219 may be divided into three or more bands and set different thresholds for the respective bands.
  • FIG. 6 and 7 show power spectra before and after dip correction.
  • FIG. 6 is a graph showing a power spectrum before dip correction, that is, a normalized power spectrum.
  • FIG. 7 is a graph showing the corrected power spectrum after the dip correction.
  • the power value is below the first threshold TH1 at the point P1.
  • the dip correction unit 219 determines a portion P1 where the power value is below the first threshold value TH1 in the low frequency band as a dip.
  • the power value is below the second threshold TH2 at the point P2.
  • the dip correction unit 219 determines a location P2 where the power value is below the second threshold TH2 in the high frequency band as a dip.
  • the dip correction unit 219 increases the power value at the points P1 and P2. For example, the dip correction unit 219 replaces the power value of the place P1 with the first threshold value TH1. The dip correction unit 219 replaces the power value at the location P2 with the second threshold TH2. Further, the dip correction unit 219 may round the boundary portion between the portion below the threshold and the portion below the threshold, as shown in FIG. 7. Alternatively, the dip correction unit 219 may correct the dip by interpolating the points P1 and P2 using a method such as spline interpolation.
  • the filter generation unit 220 uses the corrected power spectrum to generate a filter.
  • the filter generation unit 220 obtains the inverse characteristic of the corrected power spectrum. Specifically, the filter generation unit 220 obtains an inverse characteristic that cancels the corrected power spectrum (frequency characteristic in which the dip is corrected).
  • the inverse characteristic is a power spectrum having a filter coefficient that cancels the corrected logarithmic power spectrum.
  • the filter generation unit 220 calculates a signal in the time domain from the inverse characteristic and the phase characteristic (normalized phase spectrum) by inverse discrete Fourier transform or inverse discrete cosine transform.
  • the filter generation unit 220 generates a time signal by performing IFFT (Inverse Fast Fourier Transform) on the inverse characteristic and the phase characteristic.
  • IFFT Inverse Fast Fourier Transform
  • the filter generation unit 220 calculates the inverse filter by cutting out the generated time signal with a predetermined filter length.
  • the processing device 201 generates the inverse filter Linv by performing the above processing on the sound collection signal collected by the left microphone 2L.
  • the processing device 201 generates the inverse filter Rinv by performing the above processing on the sound pickup signal picked up by the right microphone 2R.
  • the inverse filters Linv and Rinv are set in the filter units 41 and 42 of FIG. 1, respectively.
  • the normalization coefficient calculation unit 216 calculates the normalization coefficient based on the scale conversion data. Thereby, the normalization unit 217 can perform normalization using an appropriate normalization coefficient.
  • the normalization coefficient can be calculated by paying attention to a band that is important for hearing.
  • the coefficient is calculated such that the sum of squares or RMS (root mean square) has a predetermined value. Compared to the case where such a general method is used, the processing of the present embodiment can obtain an appropriate normalization coefficient.
  • the measurement of the ear canal transfer characteristics of the person to be measured 1 is performed using the microphone unit 2 and the headphones 43.
  • the processing device 201 may be a smart phone or the like. For this reason, the measurement settings may be different for each measurement. Further, there is a possibility that variations may occur in the mounting of the headphones 43 and the microphone unit 2.
  • the processing device 201 performs normalization by multiplying the ECTF by the normalization coefficient Std calculated as described above. By doing so, it is possible to suppress variations due to settings during measurement and measure the ear canal transfer characteristics.
  • the filter generation unit 220 calculates the inverse characteristic by using the corrected power spectrum in which the dip has been corrected. As a result, it is possible to prevent the power value of the inverse characteristic from having a steep rising waveform in the frequency band corresponding to the dip. Thereby, an appropriate inverse filter can be generated. Further, the dip correction unit 219 divides the frequency characteristic into two or more frequency bands and sets different thresholds. By doing so, the dip can be appropriately corrected for each frequency band. Therefore, more appropriate inverse filters Linv and Rinv can be generated.
  • the normalization unit 217 normalizes the ECTF in order to appropriately perform such dip correction.
  • the dip correction unit 219 corrects the dip in the power spectrum (or amplitude spectrum) of the normalized ECTF. Therefore, the dip correction unit 219 can appropriately correct the dip.
  • FIG. 8 is a flowchart showing the processing method according to this embodiment.
  • the envelope calculating unit 214 calculates the envelope of the power spectrum of the ECTF by using the cepstrum analysis (S1). As described above, the envelope calculation unit 214 may use a method other than the cepstrum analysis.
  • the scale conversion unit 215 scales the envelope data into logarithmically spaced data (S2).
  • the scale conversion unit 215 interpolates low frequency band data having a coarse data interval by three-dimensional spline interpolation or the like. As a result, scale conversion data with equal intervals on the frequency logarithmic axis can be obtained.
  • the scale conversion unit 215 may perform scale conversion using not only the logarithmic scale but also the various auditory scales described above.
  • the normalization coefficient calculation unit 216 calculates the normalization coefficient using weighting for each frequency band (S3). In the normalization coefficient calculation unit 216, weights are set in advance for each of a plurality of frequency bands. The normalization coefficient calculation unit 216 extracts the characteristic value of the scale conversion data for each frequency band. Then, the normalization coefficient calculation unit 216 calculates the normalization coefficient by weighting and adding a plurality of feature values.
  • the normalization unit 217 calculates the normalized ECTF using the normalization coefficient (S4).
  • the normalization unit 217 calculates the normalized ECTF by multiplying the time domain ECTF by the normalization coefficient.
  • the conversion unit 218 calculates the frequency characteristic of the normalized ECTF (S5).
  • the conversion unit 218 calculates the normalized power spectrum and the normalized phase spectrum by subjecting the normalized ECTF to discrete Fourier transform or the like.
  • the dip correction unit 219 interpolates the dip of the normalized power spectrum using different thresholds for each frequency band (S6). For example, the dip correction unit 219 interpolates a portion where the power value of the normalized power spectrum is lower than the first threshold TH1 in the low frequency band. The dip correction unit 219 interpolates a portion where the power value of the normalized power spectrum falls below the second threshold TH2 in the high frequency band. Thereby, the dip of the normalized power spectrum can be corrected so as to have the respective threshold values for each band. Thereby, the corrected power spectrum can be obtained.
  • the filter generation unit 220 calculates time domain data using the corrected power spectrum (S7).
  • the filter generation unit 220 calculates the inverse characteristic of the corrected power spectrum.
  • the inverse characteristic is data that cancels the headphone characteristic based on the corrected power spectrum. Then, the filter generation unit 220 calculates time domain data by performing inverse FFT on the inverse characteristic and the normalized phase spectrum obtained in S5.
  • the filter generation unit 220 calculates an inverse filter by cutting out the time domain data with a predetermined filter length (S8).
  • the filter generation unit 220 outputs the inverse filters Linv and Rinv to the out-of-head localization processing device 100.
  • the out-of-head localization processing device 100 reproduces the reproduction signal subjected to the out-of-head localization using the inverse filters Linv and Rinv. As a result, the user U can listen to the reproduction signal that has been appropriately subjected to the out-of-head localization process.
  • the processing device 201 generates the inverse filters Linv and Rinv in the above embodiment, the processing device 201 is not limited to the one that generates the inverse filters Linv and Rinv.
  • the processing device 201 is suitable when it is necessary to appropriately normalize the collected sound signal.
  • Non-transitory computer-readable media include various types of tangible storage media, such as tangible storage media.
  • Examples of non-transitory computer readable media are magnetic recording media (eg flexible disk, magnetic tape, hard disk drive), magneto-optical recording media (eg magneto-optical disk), CD-ROM (Read Only Memory), CD-R, Includes CD-R/W and semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • the program may be supplied to the computer by various types of transitory computer-readable media (transmission computer readable medium).
  • transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves.
  • the transitory computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • the present disclosure can be applied to a processing device that processes a sound pickup signal.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

適切な処理を行うことができる処理装置、処理方法、再生方法、及びプログラムを提供することを目的とする。 本実施の形態にかかる処理装置(201)は、収音信号の周波数特性に対する包絡線を算出する包絡線算出部(214)と、包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成する尺度変換部(215)と、尺度変換データを複数の周波数帯域に分けて、周波数帯域毎の特徴値を求め、特徴値に基づいて、正規化係数を算出する正規化係数算出部(216)と、正規化係数を用いて、時間領域の収音信号を正規化する正規化部(217)と、を備えている。

Description

処理装置、処理方法、再生方法、及びプログラム
 本発明は、処理装置、処理方法、再生方法、及びプログラムに関する。
 特許文献1に開示された録音及び再生システムは、ラウドスピーカに供給される信号を処理するためのフィルタ手段を用いている。フィルタ手段は、2つのフィルタ設計ステップを含んでいる。1つ目のステップでは、仮想音源の位置と再生音場の特定位置の間の伝達関数をフィルタ(A)の形式で記述している。なお、再生音場の特定位置は、受聴者の耳元、又は頭部領域である。さらに、2つ目のステップでは、伝達関数フィルタ(A)を、ラウドスピーカの入力と特定位置との間の電気音響伝達経路又は経路群(C)をインバートするために使用されるクロストークキャンセル用フィルタ(Hx)の行列とともに畳み込んでいる。また、クロストークキャンセル用フィルタ(Hx)の行列は、インパルス応答を測定することで作成される。
 ところで、音像定位技術として、ヘッドホンを用いて受聴者の頭部の外側に音像を定位させる頭外定位技術がある。頭外定位技術では、ヘッドホンから耳までの特性(ヘッドホン特性)をキャンセルし、1つのスピーカ(モノラルスピーカ)から耳までの2本の特性(空間音響伝達特性)を与えることにより、音像を頭外に定位させている。
 ステレオスピーカの頭外定位再生においては、2チャンネル(以下、chと記載)のスピーカから発した測定信号(インパルス音等)を聴取者(リスナー)本人の耳に設置したマイクロフォン(以下、マイクとする)で録音する。そして、測定信号を集音して得られた収音信号に基づいて、処理装置がフィルタを生成する。生成したフィルタを2chのオーディオ信号に畳み込むことにより、頭外定位再生を実現することができる。
 さらに、ヘッドホンから耳までの特性をキャンセルするフィルタを生成するために、ヘッドホンから耳元乃至鼓膜までの特性(外耳道伝達関数ECTF、外耳道伝達特性とも称する)を聴取者本人の耳に設置したマイクで測定する。
 特許文献2には、外耳道伝達関数の逆フィルタを生成する方法が開示されている。特許文献2の方法では、ノッチに起因する高音ノイズを防止するために、外耳道伝達関数の振幅成分を補正している。具体的には、振幅成分のゲインがゲイン閾値を下回る場合,ゲイン値を補正することで、ノッチを調整している。そして、補正後の外耳道伝達関数に基づいて、逆フィルタを生成している。
特表平10-509565号公報 特開2015-126268号公報
 頭外定位処理を行う場合、聴取者本人の耳に設置したマイクで特性を測定することが好ましい。外耳道伝達特性を測定する場合、受聴者の耳にマイク、ヘッドホンを装着した状態で、インパルス応答測定などが実施される。聴取者本人の特性を用いることで、聴取者に適したフィルタを生成することができる。このような、フィルタ生成等のために、測定で得られた収音信号を適切に処理することが望まれる。
 本実施形態は上記の点に鑑みなされたものであり、適切に収音信号を処理することができる処理装置、処理方法、再生方法、及びプログラムを提供することを目的とする。
 本実施の形態にかかる処理装置は、収音信号の周波数特性に対する包絡線を算出する包絡線算出部と、前記包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成する尺度変換部と、前記尺度変換データを複数の周波数帯域に分けて、前記周波数帯域毎の特徴値を求め、前記特徴値に基づいて、正規化係数を算出する正規化係数算出部と、前記正規化係数を用いて、時間領域の収音信号を正規化する正規化部と、を備えている。
 本実施の形態にかかる処理方法は、収音信号の周波数特性に対する包絡線を算出するステップと、前記包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成するステップと、前記尺度変換データを複数の周波数帯域に分けて、前記周波数帯域毎の特徴値を求め、前記特徴値に基づいて、正規化係数を算出するステップと、前記正規化係数を用いて、時間領域の収音信号を正規化するステップと、を含んでいる。
 本実施の形態にかかるプログラムは、コンピュータに対して処理方法を実行させるためのプログラムであって、前記処理方法は、収音信号の周波数特性に対する包絡線を算出するステップと、前記包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成するステップと、前記尺度変換データを複数の周波数帯域に分けて、前記周波数帯域毎の特徴値を求め、前記特徴値に基づいて、正規化係数を算出するステップと、前記正規化係数を用いて、時間領域の収音信号を正規化するステップと、を含んでいる。
 本実施形態によれば、適切に収音信号を処理することができる処理装置、処理方法、再生方法、及びプログラムを提供することができる。
本実施の形態に係る頭外定位処理装置を示すブロック図である。 測定装置の構成を模式的に示す図である。 処理装置の構成を示すブロック図である。 収音信号のパワースペクトルとその包絡線を示すグラフである。 正規化前後のパワースペクトルを示すグラフである。 ディップ補正前の正規化パワースペクトルを示すグラフである、 ディップ補正後の正規化パワースペクトルを示すグラフである、 フィルタ生成処理を示すフローチャートである。
 本実施の形態にかかる音像定位処理の概要について説明する。本実施の形態にかかる頭外定位処理は、空間音響伝達特性と外耳道伝達特性を用いて頭外定位処理を行うものである。空間音響伝達特性は、スピーカなどの音源から外耳道までの伝達特性である。外耳道伝達特性は、ヘッドホン又はイヤホンのスピーカユニットから鼓膜までの伝達特性である。本実施の形態では、ヘッドホン又はイヤホンを装着していない状態での空間音響伝達特性を測定し、かつ、ヘッドホン又はイヤホンを装着した状態での外耳道伝達特性を測定し、それらの測定データを用いて頭外定位処理を実現している。本実施の形態は、空間音響伝達特性、又は外耳道伝達特性を測定するためのマイクシステムに特徴を有している。
 本実施の形態にかかる頭外定位処理は、パーソナルコンピュータ、スマートホン、タブレットPCなどのユーザ端末で実行される。ユーザ端末は、プロセッサ等の処理手段、メモリやハードディスクなどの記憶手段、液晶モニタ等の表示手段、タッチパネル、ボタン、キーボード、マウスなどの入力手段を有する情報処理装置である。ユーザ端末は、データを送受信する通信機能を有していてもよい。さらに、ユーザ端末には、ヘッドホン又はイヤホンを有する出力手段(出力ユニット)が接続される。ユーザ端末と出力手段との接続は、有線接続でも無線接続でもよい。
実施の形態1.
(頭外定位処理装置)
 本実施の形態にかかる音場再生装置の一例である、頭外定位処理装置100のブロック図を図1に示す。頭外定位処理装置100は、ヘッドホン43を装着するユーザUに対して音場を再生する。そのため、頭外定位処理装置100は、LchとRchのステレオ入力信号XL、XRについて、音像定位処理を行う。LchとRchのステレオ入力信号XL、XRは、CD(Compact Disc)プレイヤーなどから出力されるアナログのオーディオ再生信号、又は、mp3(MPEG Audio Layer-3)等のデジタルオーディオデータである。なお、オーディオ再生信号、又はデジタルオーディオデータをまとめて再生信号と称する。すなわち、LchとRchのステレオ入力信号XL、XRが再生信号となっている。
 なお、頭外定位処理装置100は、物理的に単一な装置に限られるものではなく、一部の処理が異なる装置で行われてもよい。例えば、一部の処理がスマートホンなどにより行われ、残りの処理がヘッドホン43に内蔵されたDSP(Digital Signal Processor)などにより行われてもよい。
 頭外定位処理装置100は、頭外定位処理部10、逆フィルタLinvを格納するフィルタ部41、逆フィルタRinvを格納するフィルタ部42、及びヘッドホン43を備えている。頭外定位処理部10、フィルタ部41、及びフィルタ部42は、具体的にはプロセッサ等により実現可能である。
 頭外定位処理部10は、空間音響伝達特性Hls、Hlo、Hro、Hrsを格納する畳み込み演算部11~12、21~22、及び加算器24、25を備えている。畳み込み演算部11~12、21~22は、空間音響伝達特性を用いた畳み込み処理を行う。頭外定位処理部10には、CDプレイヤーなどからのステレオ入力信号XL、XRが入力される。頭外定位処理部10には、空間音響伝達特性が設定されている。頭外定位処理部10は、各chのステレオ入力信号XL、XRに対し、空間音響伝達特性のフィルタ(以下、空間音響フィルタとも称する)を畳み込む。空間音響伝達特性は被測定者の頭部や耳介で測定した頭部伝達関数HRTFでもよいし、ダミーヘッドまたは第三者の頭部伝達関数であってもよい。
 4つの空間音響伝達特性Hls、Hlo、Hro、Hrsを1セットとしたものを空間音響伝達関数とする。畳み込み演算部11、12、21、22で畳み込みに用いられるデータが空間音響フィルタとなる。空間音響伝達特性Hls、Hlo、Hro、Hrsを所定のフィルタ長で切り出すことで、空間音響フィルタが生成される。
 空間音響伝達特性Hls、Hlo、Hro、Hrsのそれぞれは、インパルス応答測定などにより、事前に取得されている。例えば、ユーザUが左右の耳にマイクをそれぞれ装着する。ユーザUの前方に配置された左右のスピーカが、インパルス応答測定を行うための、インパルス音をそれぞれ出力する。そして、スピーカから出力されたインパルス音等の測定信号をマイクで収音する。マイクでの収音信号に基づいて、空間音響伝達特性Hls、Hlo、Hro、Hrsが取得される。左スピーカと左マイクとの間の空間音響伝達特性Hls、左スピーカと右マイクとの間の空間音響伝達特性Hlo、右スピーカと左マイクとの間の空間音響伝達特性Hro、右スピーカと右マイクとの間の空間音響伝達特性Hrsが測定される。
 そして、畳み込み演算部11は、Lchのステレオ入力信号XLに対して空間音響伝達特性Hlsに応じた空間音響フィルタを畳み込む。畳み込み演算部11は、畳み込み演算データを加算器24に出力する。畳み込み演算部21は、Rchのステレオ入力信号XRに対して空間音響伝達特性Hroに応じた空間音響フィルタを畳み込む。畳み込み演算部21は、畳み込み演算データを加算器24に出力する。加算器24は2つの畳み込み演算データを加算して、フィルタ部41に出力する。
 畳み込み演算部12は、Lchのステレオ入力信号XLに対して空間音響伝達特性Hloに応じた空間音響フィルタを畳み込む。畳み込み演算部12は、畳み込み演算データを、加算器25に出力する。畳み込み演算部22は、Rchのステレオ入力信号XRに対して空間音響伝達特性Hrsに応じた空間音響フィルタを畳み込む。畳み込み演算部22は、畳み込み演算データを、加算器25に出力する。加算器25は2つの畳み込み演算データを加算して、フィルタ部42に出力する。
 フィルタ部41、42にはヘッドホン特性(ヘッドホンの再生ユニットとマイク間の特性)をキャンセルする逆フィルタLinv、Rinvが設定されている。そして、頭外定位処理部10での処理が施された再生信号(畳み込み演算信号)に逆フィルタLinv、Rinvを畳み込む。フィルタ部41で加算器24からのLch信号に対して、Lch側のヘッドホン特性の逆フィルタLinvを畳み込む。同様に、フィルタ部42は加算器25からのRch信号に対して、Rch側のヘッドホン特性の逆フィルタRinvを畳み込む。逆フィルタLinv、Rinvは、ヘッドホン43を装着した場合に、ヘッドホンユニットからマイクまでの特性をキャンセルする。マイクは、外耳道入口から鼓膜までの間ならばどこに配置してもよい。
 フィルタ部41は、処理されたLch信号YLをヘッドホン43の左ユニット43Lに出力する。フィルタ部42は、処理されたRch信号YRをヘッドホン43の右ユニット43Rに出力する。ユーザUは、ヘッドホン43を装着している。ヘッドホン43は、Lch信号YLとRch信号YR(以下、Lch信号YLとRch信号YRをまとめてステレオ信号とも称する)をユーザUに向けて出力する。これにより、ユーザUの頭外に定位された音像を再生することができる。
 このように、頭外定位処理装置100は、空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、ヘッドホン特性の逆フィルタLinv,Rinvを用いて、頭外定位処理を行っている。以下の説明において、空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、ヘッドホン特性の逆フィルタLinv,Rinvとをまとめて頭外定位処理フィルタとする。2chのステレオ再生信号の場合、頭外定位フィルタは、4つの空間音響フィルタと、2つの逆フィルタとから構成されている。そして、頭外定位処理装置100は、ステレオ再生信号に対して合計6個の頭外定位フィルタを用いて畳み込み演算処理を行うことで、頭外定位処理を実行する。頭外定位フィルタは、ユーザU個人の測定に基づくものであることが好ましい。例えば,ユーザUの耳に装着されたマイクが収音した収音信号に基づいて、頭外定位フィルタが設定されている。
 このように空間音響フィルタと、ヘッドホン特性の逆フィルタLinv,Rinvはオーディオ信号用のフィルタである。これらのフィルタが再生信号(ステレオ入力信号XL、XR)に畳み込まれることで、頭外定位処理装置100が、頭外定位処理を実行する。本実施の形態では、逆フィルタLinv,Rinvを生成するための処理が技術的特徴の一つとなっている。以下、逆フィルタを生成するための処理について説明する。
(外耳道伝達特性の測定装置)
 逆フィルタを生成するために、外耳道伝達特性を測定する測定装置200について、図2を用いて説明する。図2は、ユーザUに対して伝達特性を測定するための構成を示している。測定装置200は、マイクユニット2と、ヘッドホン43と、処理装置201と、を備えている。なお、ここでは、被測定者1は、図1のユーザUと同一人物となっている。
 本実施の形態では、測定装置200の処理装置201が、測定結果に応じて、フィルタを適切に生成するための演算処理を行っている。処理装置201は、パーソナルコンピュータ(PC)、タブレット端末、スマートホン等であり、メモリ、及びプロセッサを備えている。メモリは、処理プログラムや各種パラメータや測定データなどを記憶している。プロセッサは、メモリに格納された処理プログラムを実行する。プロセッサが処理プログラムを実行することで、各処理が実行される。プロセッサは、例えば、CPU(Central Processing Unit)、FPGA(Field-Programmable Gate Array)、DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit)、又は、GPU(Graphics Processing Unit)等であってもよい。
 処理装置201には、マイクユニット2と、ヘッドホン43と、が接続されている。なお、マイクユニット2は、ヘッドホン43に内蔵されていてもよい。マイクユニット2は、左マイク2Lと、右マイク2Rとを備えている。左マイク2Lは、ユーザUの左耳9Lに装着される。右マイク2Rは、ユーザUの右耳9Rに装着される。処理装置201は、頭外定位処理装置100と同じ処理装置であってもよく、異なる処理装置であってよい。また、ヘッドホン43の代わりにイヤホンを用いることも可能である。
 ヘッドホン43は、ヘッドホンバンド43Bと、左ユニット43Lと、右ユニット43Rとを、有している。ヘッドホンバンド43Bは、左ユニット43Lと右ユニット43Rとを連結する。左ユニット43LはユーザUの左耳9Lに向かって音を出力する。右ユニット43RはユーザUの右耳9Rに向かって音を出力する。ヘッドホン43は密閉型、開放型、半開放型、または半密閉型等である、ヘッドホンの種類を問わない。マイクユニット2がユーザUに装着された状態で、ユーザUがヘッドホン43を装着する。すなわち、左マイク2L、右マイク2Rが装着された左耳9L、右耳9Rにヘッドホン43の左ユニット43L、右ユニット43Rがそれぞれ装着される。ヘッドホンバンド43Bは、左ユニット43Lと右ユニット43Rとをそれぞれ左耳9L、右耳9Rに押し付ける付勢力を発生する。
 左マイク2Lは、ヘッドホン43の左ユニット43Lから出力された音を収音する。右マイク2Rは、ヘッドホン43の右ユニット43Rから出力された音を収音する。左マイク2L、及び右マイク2Rのマイク部は、外耳孔近傍の収音位置に配置される。左マイク2L、及び右マイク2Rは、ヘッドホン43に干渉しないように構成されている。すなわち、左マイク2L、及び右マイク2Rは左耳9L、右耳9Rの適切な位置に配置された状態で、ユーザUがヘッドホン43を装着することができる。
 処理装置201は、ヘッドホン43に対して測定信号を出力する。これにより、ヘッドホン43はインパルス音などを発生する。具体的には、左ユニット43Lから出力されたインパルス音を左マイク2Lで測定する。右ユニット43Rから出力されたインパルス音を右マイク2Rで測定する。測定信号の出力時に、マイク2L、2Rが収音信号を取得することで、インパルス応答測定が実施される。
 処理装置201は、マイク2L、2Rからの収音信号に対して、同様の処理を行うことで、逆フィルタLinv、Rinvを生成する。以下、測定装置200の処理装置201と、その処理について詳細に説明する。図3は、処理装置201を示す制御ブロック図である。処理装置201は、測定信号生成部211と、収音信号取得部212と、包絡線算出部214と、尺度変換部215を備えている。さらに、処理装置201は、正規化係数算出部216と、正規化部217と、変換部218と、ディップ補正部219と、フィルタ生成部220と、を備えている。
 測定信号生成部211は、D/A変換器やアンプなどを備えており、外耳道伝達特性を測定するための測定信号を生成する。測定信号は、例えば、インパルス信号やTSP(Time Streched Pulse)信号等である。ここでは、測定信号としてインパルス音を用いて、測定装置200がインパルス応答測定を実施している。
 マイクユニット2の左マイク2L、右マイク2Rがそれぞれ測定信号を収音し、収音信号を処理装置201に出力する。収音信号取得部212は、左マイク2L、右マイク2Rで収音された収音信号を取得する。なお、収音信号取得部212は、マイク2L、2Rからの収音信号をA/D変換するA/D変換器を備えていてもよい。収音信号取得部212は、複数回の測定により得られた信号を同期加算してもよい。時間領域の収音信号をECTFと称する。
 包絡線算出部214は、収音信号の周波数特性の包絡線を算出する。包絡線算出部214は、ケプストラム分析を用いて、包絡線を求めることができる。まず、包絡線算出部214は、離散フーリエ変換や離散コサイン変換により、収音信号(ECTF)の周波数特性を算出する。包絡線算出部214は、例えば、時間領域のECTFをFFT(高速フーリエ変換)することで、周波数特性を算出する。周波数特性は、パワースペクトルと、位相スペクトルとを含んでいる。なお、包絡線算出部214はパワースペクトルの代わりに振幅スペクトルを生成してもよい。
 パワースペクトルの各パワー値(振幅値)を対数変換する。包絡線算出部214は、対数変換のスペクトルに対して逆フーリエ変換を行うことで、ケプストラムを求める。包絡線算出部214は、ケプストラムにリフタを適用する。リフタは、低周波数帯域成分のみを通過させるローパスリフタである。包絡線算出部214、リフタを通過したケプストラムをFFT変換することで、ECTFのパワースペクトルの包絡線を求めることができる。図4は、パワースペクトルとその包絡線の一例を示すグラフである。
 このように、包絡線のデータを算出するためにケプストラム分析を用いることで、簡易な計算で、パワースペクトルを平滑化することができる。よって、演算量を少なくすることができる。包絡線算出部214は、ケプストラム分析以外の手法を用いてもよい。例えば、振幅値を対数変換したものに対し、一般的な平滑化(スムージング)手法を適用することで、包絡線を算出してもよい。平滑化手法としては、単純移動平均、Savitzky-Golayフィルタ、平滑化スプライン、などを用いることができる。
 尺度変換部215は、対数軸において、離散的なスペクトルデータが等間隔になるように包絡線データの尺度を変化する。包絡線算出部214で求められた包絡線データは、周波数的に等間隔となっている。つまり、包絡線データは、周波数線形軸において等間隔となっているため、周波数対数軸では非等間隔になっている。このため、尺度変換部215は、周波数対数軸において包絡線データが等間隔になるように、包絡線データに対して補間処理を行う
 包絡線データにおいて、対数軸上では、低周波数域になればなるほど隣接するデータ間隔は粗く、高周波数域になればなるほど隣接するデータ間隔は密になっている。そのため、尺度変換部215は、データ間隔が粗い低周波数帯域のデータを補間する。具体的には、尺度変換部215は、3次元スプライン補間等の補間処理を行うことで、対数軸において等間隔に配置された離散的な包絡線データを求める。尺度変換が行われた包絡線データを、尺度変換データとする。尺度変換データは、周波数とパワー値とが対応付けられているスペクトルとなる。
 対数尺度に変換する理由について説明する。一般的に人間の感覚量は対数に変換されていると言われている。そのため、聴こえる音の周波数も対数軸で考えることが重要になる。尺度変換することで、上記の感覚量においてデータが等間隔となるため、全ての周波数帯域でデータを等価に扱えるようになる。この結果、数学的な演算、周波数帯域の分割や重み付けが容易になり、安定した結果を得ることが可能になる。なお、尺度変換部215は、対数尺度に限らず、人間の聴覚に近い尺度(聴覚尺度と称する)へ包絡線データを変換すればよい。聴覚尺度としては、対数尺度(Logスケール)、メル(mel)尺度、バーク(Bark)尺度、ERB(Equivalent Rectangular Bandwidth)尺度等で尺度変換をしてもよい。尺度変換部215は、データ補間により、包絡線データを聴覚尺度で尺度変換する。例えば、尺度変換部215は、聴覚尺度においてデータ間隔が粗い低周波数帯域のデータを補間することで、低周波数帯域のデータを密にする。聴覚尺度で等間隔なデータは、線形尺度(リニアスケール)では低周波数帯域が密、高周波数帯域が粗なデータとなる。このようにすることで、尺度変換部215は、聴覚尺度で等間隔な尺度変換データを生成することができる。もちろん、尺度変換データは、聴覚尺度において、完全に等間隔なデータでなくてもよい。
 正規化係数算出部216は、尺度変換データに基づいて、正規化係数を算出する。そのため、正規化係数算出部216は、尺度変換データを複数の周波数帯域に分けて、周波数帯域毎に特徴値を算出する。そして、正規化係数算出部216は、周波数帯域毎の特徴値に基づいて、正規化係数を算出する。正規化係数算出部216は、周波数帯域毎の特徴値を重み付け加算することで、正規化係数を算出する。
 正規化係数算出部216は、尺度変換データを4つの周波数帯域(以下、第1~第4の帯域とする)に分割する。第1の帯域は、最小周波数(例えば、10Hz)以上1000Hz未満である。第1の帯域は、ヘッドホン43がフィットするかどうかで変化する範囲である。第2の帯域は、1000Hz以上、4kHz未満である。第2の帯域は、ヘッドホンそのものの特性が個人によらず表れる範囲である。第3の帯域は、4kHz以上、12kHz未満である。第3の特性は、個人の特性が最もよく表れる範囲である。第4の帯域は、12kHz以上、最大周波数(例えば、22.4kHz)以下である。第4の帯域は、ヘッドホンを装着する毎に変化する範囲である。なお、各帯域の範囲は例示であり、上記の値に限られるものではない。
 特徴値は、例えば、各帯域における尺度変換データの最大値、最小値、平均値、中央値の4値となっている。第1の帯域の4値をAmax(最大値)、Amin(最小値)、Aave(平均値)、Amed(中央値)とする。第2の帯域の4値、Bmax、Bmin、Bave、Bmedとする。同様に、第3の帯域の4値をCmax、Cmin、Cave、Cmedとし、第4の帯域の4値をDmax、Dmin、Dave、Dmedとする。
 正規化係数算出部216は、帯域毎に、4つの特徴値に基づいて、基準値を算出する。
第1の帯域の基準値をAstdとすると基準値Astdは以下の式(1)で示される。
Astd=Amax×0.15+Amin×0.15+Aave×0.3+Amed×0.4 ・・・(1)
 第2の帯域の基準値をBstdとすると基準値Bstdは以下の式(2)で示される。
Bstd=Bmax×0.25+Bmin×0.25+Bave×0.4+Bmed×0.1 ・・・(2)
 第3の帯域の基準値をCstdとすると基準値Cstdは以下の式(3)で示される。
Cstd=Cmax×0.4+Cmin×0.1+Cave×0.3+Cmed×0.2 ・・・(3)
 第4の帯域の基準値をDstdとすると基準値Dstdは以下の式(4)で示される。
Dstd=Dmax×0.1+Dmin×0.1+Dave×0.5+Dmed×0.3 ・・・(4)
 正規化係数をStdとすると、正規化係数Stdは、以下の式(5)で示される。
Std=Astd×0.25+Bstd×0.4+Cstd×0.25+Dstd×0.1 ・・・(5)
 このように、正規化係数算出部216は、帯域毎の特徴値を重み付け加算することで、正規化係数Stdを算出している。正規化係数算出部216は、4つの周波数帯域に分けて、それぞれの帯域から4個の特徴値を抽出する。正規化係数算出部216は、16個の特徴値を重み付け加算している。各帯域の分散値を算出して、分散値に応じて、重み付けを変えてもよい。特徴値として、積分値などを用いてもよい。また、1つの帯域の特徴値の数は4つに限らず、5つ以上でも3つ以下でもよい。最大値、最小値、平均値、中央値、積分値、及び分散値の少なくとも1つ以上が特徴値となっていればよい。換言すると、最大値、最小値、平均値、中央値、積分値、分散値の一つ以上に対する重み付け加算の係数が0となっていてもよい。
 正規化部217は、正規化係数を用いて、収音信号を正規化する。具体的には、正規化部217は、Std×ECTFを正規化後の収音信号として算出する。正規化後の収音信号を正規化ECTFとする。正規化部217は、正規化係数を用いることで、ECTFを適切なレベルに正規化することができる。
 変換部218は、離散フーリエ変換や離散コサイン変換により、正規化ECTFの周波数特性を算出する。例えば、変換部218は、時間領域の正規化ECTFをFFT(高速フーリエ変換)することで、周波数特性を算出する。正規化ECTFの周波数特性は、パワースペクトルと、位相スペクトルとを含んでいる。なお、変換部218はパワースペクトルの代わりに振幅スペクトルを生成してもよい。正規化ECTFの周波数特性を正規化周波数特性とする。また、正規化ECTFのパワースペクトルと位相スペクトルを正規化パワースペクトルと正規化位相スペクトルとする。図5に正規化前後のパワースペクトルを示す。正規化を行うことで、パワースペクトルのパワー値が適切なレベルに変化する。
 ディップ補正部219は、正規化パワースペクトルのディップを補正する。ディップ補正部219は、正規化パワースペクトルのパワー値が閾値以下となっている箇所をディップと判定して、ディップとなっている箇所のパワー値を補正する。例えば、ディップ補正部219は、閾値を下回った箇所を補間することで、ディップを補正している。ディップ補正後の正規化パワースペクトルを補正パワースペクトルとする。
 ディップ補正部219は、正規化パワースペクトルを2つの帯域に分けて、帯域毎に異なる閾値を設定している。例えば、12kHzを境界周波数として、12kHz以下を低周波数帯域、12kHz以上を高周波数帯域とする。低周波数帯域の閾値を第1の閾値TH1とし、高周波数帯域の閾値を第2の閾値TH2とする。第1の閾値TH1は、第2の閾値TH2よりも低くすることが好ましい、例えば、第1の閾値TH1を、-13dBとし、第2の閾値TH2を-9dBとすることができる。もちろん、ディップ補正部219は、3つ以上の帯域に分けて、それぞれの帯域に異なる閾値を設定してもよい。
 図6、図7にディップ補正前後のパワースペクトルを示す。図6はディップ補正前のパワースペクトル、すなわち、正規化パワースペクトルを示すグラフである。図7はディップ補正後の補正後パワースペクトルを示すグラフである。
 図6に示すように、低周波数帯域では、箇所P1において、パワー値が第1の閾値TH1を下回っている。ディップ補正部219は、低周波数帯域において、パワー値が第1の閾値TH1を下回る箇所P1をディップと判定する。高周波数帯域において、箇所P2において、パワー値が第2の閾値TH2を下回っている。ディップ補正部219は、高周波数帯域において、パワー値が第2の閾値TH2を下回る箇所P2をディップと判定する。
 ディップ補正部219は、箇所P1、P2におけるパワー値を大きくする。例えば、ディップ補正部219は、箇所P1のパワー値を第1の閾値TH1に置き換える。ディップ補正部219は、箇所P2のパワー値を第2の閾値TH2に置き換える。また、ディップ補正部219は、図7に示すように、閾値を下回る箇所と下回らない箇所との境界部分を丸め込んでもよい。あるいは、ディップ補正部219は、スプライン補間などの手法を用いて箇所P1、P2を補間することで、ディップを補正してもよい。
 フィルタ生成部220は、補正後パワースペクトルを用いて、フィルタを生成する。フィルタ生成部220は、補正後パワースペクトルの逆特性を求める。具体的には、フィルタ生成部220は、補正後パワースペクトル(ディップが補正された周波数特性)をキャンセルするような逆特性を求める。逆特性は、補正後の対数パワースペクトルをキャンセルするようなフィルタ係数を有するパワースペクトルである。
 フィルタ生成部220は、逆離散フーリエ変換又は逆離散コサイン変換により、逆特性と位相特性(正規化位相スペクトル)から時間領域の信号を算出する。フィルタ生成部220は、逆特性と位相特性をIFFT(逆高速フーリエ変換)することで、時間信号を生成する。フィルタ生成部220は、生成した時間信号を所定のフィルタ長で切り出すことで、逆フィルタを算出する。
 処理装置201は、左マイク2Lで収音された収音信号に上記の処理を実施することで、逆フィルタLinvを生成する。処理装置201は、右マイク2Rで収音された収音信号に上記の処理を実施することで、逆フィルタRinvを生成する。逆フィルタLinv、Rinvがそれぞれ、図1のフィルタ部41,42に設定される。
 このように、本実施の形態では、処理装置201は、正規化係数算出部216が、尺度変換データに基づいて、正規化係数を算出している。これにより、正規化部217が、適切な正規化係数を用いて、正規化を行うことができる。聴感上重要な帯域に着目して、正規化係数を算出することができる。一般的には、時間領域の信号を正規化する場合に、二乗和やRMS(二乗平均平方根)が、既定値になるように係数を求めている。このような一般的な方法を用いた場合に比べて、本実施の形態の処理により、適切な正規化係数を求めることができる。
 被測定者1の外耳道伝達特性の測定は、マイクユニット2とヘッドホン43と用いて行われる。さらに、処理装置201はスマートホン等とすることができる。このため、測定の設定が測定毎に異なるおそれがある。また、ヘッドホン43やマイクユニット2の装着に、ばらつきが生じるおそれもある。処理装置201が上記のように算出した正規化係数StdをECTFに乗じることで、正規化を行っている。このようにすることで、測定時の設定等によるばらつきを抑制して、外耳道伝達特性を測定することができる。
 ディップ補正部219において、ディップが補正された補正パワースペクトルを用いて、フィルタ生成部220が逆特性を算出している。これにより、ディップに対応する周波数帯域において、逆特性のパワー値が急峻な立ち上がり波形となることを防ぐことができる。これにより、適切な逆フィルタを生成することができる。さらに、ディップ補正部219は、周波数特性を2つ以上の周波数帯域に分けて、異なる閾値を設定している。このようにすることで、周波数帯域毎に適切にディップを補正することができる。よって、より適切な逆フィルタLinv、Rinvを生成することができる。
 さらに、このようなディップ補正を適切に行うために、正規化部217がECTFを正規化している。正規化ECTFのパワースペクトル(又は振幅スペクトル)のディップをディップ補正部219が補正している。よって、ディップ補正部219は適切にディップを補正することができる。
 本実施の形態における処理装置201における処理方法について、図8を用いて説明する。図8は、本実施の形態にかかる処理方法を示すフローチャートである。
 まず、包絡線算出部214が、ケプストラム分析を用いて、ECTFのパワースペクトルの包絡線を算出する(S1)。上記のように、包絡線算出部214は、ケプストラム分析以外の手法を用いてもよい。
 尺度変換部215が、包絡線データを対数的に等間隔なデータへの尺度変換を行う(S2)。尺度変換部215は、データ間隔が粗い低周波数帯域のデータを、3次元スプライン補間などで補間する。これにより、周波数対数軸において等間隔な尺度変換データが得られる。尺度変換部215は、対数尺度に限らず、先に述べた各種の聴覚尺度を用いて尺度変換を行ってもよい。
 正規化係数算出部216が、周波数帯域毎の重み付けを用いて、正規化係数の算出を行う(S3)。正規化係数算出部216には、予め複数の周波数帯域毎に重みが設定されている。正規化係数算出部216は、周波数帯域毎に尺度変換データの特徴値を抽出する。そして、正規化係数算出部216は、複数の特徴値を重み付け加算することで、正規化係数を算出する。
 正規化部217は、正規化係数を用いて、正規化ECTFを算出する(S4)。正規化部217は、時間領域のECTFに正規化係数を乗じることで、正規化ECTFを算出する。
 変換部218は、正規化ECTFの周波数特性を算出する(S5)。変換部218は、正規化ECTFを離散フーリエ変換等することで、正規化パワースペクトルと正規化位相スペクトルを算出する。
 ディップ補正部219は、周波数帯域毎に異なる閾値を用いて、正規化パワースペクトルのディップを補間する(S6)。例えば、ディップ補正部219は、低周波数帯域では正規化パワースペクトルのパワー値が第1の閾値TH1を下回る箇所を補間する。ディップ補正部219は、高周波数帯域では正規化パワースペクトルのパワー値が第2の閾値TH2を下回る箇所を補間する。これにより、正規化パワースペクトルのディップが、帯域毎にそれぞれの閾値となるように、補正することができる。これにより、補正後パワースペクトルを求めることができる。
 フィルタ生成部220は、補正後パワースペクトルを用いて、時間領域データを算出する(S7)。フィルタ生成部220は、補正後パワースペクトルの逆特性を算出する。逆特性は、補正後パワースペクトルに基づくヘッドホン特性を打ち消すようなデータである。そして、フィルタ生成部220は、逆特性とS5で求めた正規化位相スペクトルとに対して、逆FFTを施すことにより、時間領域データを算出する。
 フィルタ生成部220は、時間領域データを所定のフィルタ長で切り出すことで、逆フィルタを算出する(S8)。フィルタ生成部220は、逆フィルタLinv,Rinvを頭外定位処理装置100に出力する。頭外定位処理装置100は、逆フィルタLinv,Rinvを用いて、頭外定位処理した再生信号を再生する。これにより、ユーザUは、適切に頭外定位処理された再生信号を受聴することができる。
 なお、上記の実施の形態では、処理装置201が逆フィルタLinv、Rinvを生成していたが、処理装置201は、逆フィルタLinv、Rinvを生成するものに限定されるものではない。例えば、処理装置201は、収音信号を適切に正規化する処理を行う必要がある場合に好適である。
 上記処理のうちの一部又は全部は、コンピュータプログラムによって実行されてもよい。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記実施の形態に限られたものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
 この出願は、2019年2月14日に出願された日本出願特願2019-24336を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本開示は、収音信号を処理する処理装置に適用可能である。
 U ユーザ
 1 被測定者
 10 頭外定位処理部
 11 畳み込み演算部
 12 畳み込み演算部
 21 畳み込み演算部
 22 畳み込み演算部
 24 加算器
 25 加算器
 41 フィルタ部
 42 フィルタ部
 43 ヘッドホン
 200 測定装置
 201 処理装置
 211 測定信号生成部
 212 収音信号取得部
 214 包絡線算出部
 215 尺度変換部
 216 正規化係数算出部
 217 正規化部
 218 変換部
 219 ディップ補正部
 220 フィルタ生成部

Claims (8)

  1.  収音信号の周波数特性に対する包絡線を算出する包絡線算出部と、
     前記包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成する尺度変換部と、
     前記尺度変換データを複数の周波数帯域に分けて、前記周波数帯域毎の特徴値を求め、前記特徴値に基づいて、正規化係数を算出する正規化係数算出部と、
     前記正規化係数を用いて、時間領域の収音信号を正規化する正規化部と、を備えた処理装置。
  2.  前記正規化された収音信号を周波数領域に変換して、正規化周波数特性を算出する変換部と、
     前記正規化周波数特性のパワー値又は振幅値に対して、ディップ補正を行うディップ補正部と、
     前記ディップ補正された正規化周波数特性を用いて、フィルタを生成するフィルタ生成部と、を備えた請求項1に記載の処理装置。
  3.  前記ディップ補正部は、周波数帯域毎に異なる閾値を用いて、ディップを補正している請求項2に記載の処理装置。
  4.  前記正規化係数算出部は、前記周波数帯域毎に、複数の特徴値を求め、
     前記複数の特徴値を重み付け加算することで、前記正規化係数を算出する請求項1~3のいずれか1項に記載の処理装置。
  5.  収音信号の周波数特性に対する包絡線を算出するステップと、
     前記包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成するステップと、
     前記尺度変換データを複数の周波数帯域に分けて、前記周波数帯域毎の特徴値を求め、前記特徴値に基づいて、正規化係数を算出するステップと、
     前記正規化係数を用いて、時間領域の収音信号を正規化するステップと、を含む処理方法。
  6.  前記正規化された収音信号を周波数領域に変換して、正規化周波数特性を算出する変換部と、
     前記正規化周波数特性に対して、ディップ補間を行うディップ補間部と、
     前記ディップ補間された正規化周波数特性を用いて、フィルタを生成するフィルタ生成部と、を備えた請求項5に記載の処理方法。
  7.  請求項6に記載の処理方法で生成された前記フィルタを用いて、再生信号に頭外定位処理を行うステップを備えた再生方法。
  8.  コンピュータに対して処理方法を実行させるためのプログラムであって、
     前記処理方法は、
     収音信号の周波数特性に対する包絡線を算出するステップと、
     前記包絡線の周波数データを尺度変換及びデータ補間することで、尺度変換データを生成するステップと、
     前記尺度変換データを複数の周波数帯域に分けて、前記周波数帯域毎の特徴値を求め、前記特徴値に基づいて、正規化係数を算出するステップと、
     前記正規化係数を用いて、時間領域の収音信号を正規化するステップと、を含む、プログラム。
PCT/JP2019/050601 2019-02-14 2019-12-24 処理装置、処理方法、再生方法、及びプログラム WO2020166216A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19914812.3A EP3926977A4 (en) 2019-02-14 2019-12-24 TREATMENT DEVICE, TREATMENT METHOD, REPRODUCTION METHOD AND PROGRAM
CN201980090944.3A CN113412630B (zh) 2019-02-14 2019-12-24 处理装置、处理方法、再现方法和程序
US17/400,672 US11997468B2 (en) 2019-02-14 2021-08-12 Processing device, processing method, reproducing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-024336 2019-02-14
JP2019024336A JP7115353B2 (ja) 2019-02-14 2019-02-14 処理装置、処理方法、再生方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/400,672 Continuation US11997468B2 (en) 2019-02-14 2021-08-12 Processing device, processing method, reproducing method, and program

Publications (1)

Publication Number Publication Date
WO2020166216A1 true WO2020166216A1 (ja) 2020-08-20

Family

ID=72045256

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050601 WO2020166216A1 (ja) 2019-02-14 2019-12-24 処理装置、処理方法、再生方法、及びプログラム

Country Status (5)

Country Link
US (1) US11997468B2 (ja)
EP (1) EP3926977A4 (ja)
JP (1) JP7115353B2 (ja)
CN (1) CN113412630B (ja)
WO (1) WO2020166216A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015032933A (ja) * 2013-08-01 2015-02-16 クラリオン株式会社 低域補完装置および低域補完方法
JP2015126268A (ja) 2013-12-25 2015-07-06 株式会社Jvcケンウッド 頭外音像定位装置、頭外音像定位方法、及び、プログラム
JP2017060040A (ja) * 2015-09-17 2017-03-23 株式会社Jvcケンウッド 頭外定位処理装置、及び頭外定位処理方法
JP2019024336A (ja) 2017-07-26 2019-02-21 日清製粉株式会社 パン類の製造方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9417185D0 (en) 1994-08-25 1994-10-12 Adaptive Audio Ltd Sounds recording and reproduction systems
US5974387A (en) * 1996-06-19 1999-10-26 Yamaha Corporation Audio recompression from higher rates for karaoke, video games, and other applications
JP4274614B2 (ja) * 1999-03-09 2009-06-10 パナソニック株式会社 オーディオ信号復号方法
JP2003280691A (ja) * 2002-03-19 2003-10-02 Sanyo Electric Co Ltd 音声処理方法および音声処理装置
JP5792994B2 (ja) * 2011-05-18 2015-10-14 日本放送協会 音声比較装置及び音声比較プログラム
CN104041054A (zh) * 2012-01-17 2014-09-10 索尼公司 编码设备及编码方法、解码设备及解码方法以及程序
EP3259927A1 (en) * 2015-02-19 2017-12-27 Dolby Laboratories Licensing Corporation Loudspeaker-room equalization with perceptual correction of spectral dips
CN106878866B (zh) * 2017-03-03 2020-01-10 Oppo广东移动通信有限公司 音频信号处理方法、装置及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015032933A (ja) * 2013-08-01 2015-02-16 クラリオン株式会社 低域補完装置および低域補完方法
JP2015126268A (ja) 2013-12-25 2015-07-06 株式会社Jvcケンウッド 頭外音像定位装置、頭外音像定位方法、及び、プログラム
JP2017060040A (ja) * 2015-09-17 2017-03-23 株式会社Jvcケンウッド 頭外定位処理装置、及び頭外定位処理方法
JP2019024336A (ja) 2017-07-26 2019-02-21 日清製粉株式会社 パン類の製造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3926977A4

Also Published As

Publication number Publication date
JP7115353B2 (ja) 2022-08-09
EP3926977A1 (en) 2021-12-22
JP2020136752A (ja) 2020-08-31
EP3926977A4 (en) 2022-04-13
CN113412630A (zh) 2021-09-17
US20210377684A1 (en) 2021-12-02
US11997468B2 (en) 2024-05-28
CN113412630B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US11115743B2 (en) Signal processing device, signal processing method, and program
US9577595B2 (en) Sound processing apparatus, sound processing method, and program
CN110612727B (zh) 头外定位滤波器决定系统、头外定位滤波器决定装置、头外定位决定方法以及记录介质
US10687144B2 (en) Filter generation device and filter generation method
US10779107B2 (en) Out-of-head localization device, out-of-head localization method, and out-of-head localization program
JP6981330B2 (ja) 頭外定位処理装置、頭外定位処理方法、及びプログラム
JP7115353B2 (ja) 処理装置、処理方法、再生方法、及びプログラム
JP6805879B2 (ja) フィルタ生成装置、フィルタ生成方法、及びプログラム
JP6950405B2 (ja) 処理装置、処理方法、及びプログラム
US20230114777A1 (en) Filter generation device and filter generation method
US20230045207A1 (en) Processing device and processing method
WO2021131337A1 (ja) 処理装置、処理方法、フィルタ生成方法、再生方法、及びプログラム
US20230040821A1 (en) Processing device and processing method
US11228837B2 (en) Processing device, processing method, reproduction method, and program
US20240080618A1 (en) Out-of-head localization processing device, out-of-head localization processing method, and computer-readable medium
JP2023047707A (ja) フィルタ生成装置、及びフィルタ生成方法
JP2023047706A (ja) フィルタ生成装置、及びフィルタ生成方法
JP2023024038A (ja) 処理装置、及び処理方法
JP2023024040A (ja) 処理装置、及び処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19914812

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019914812

Country of ref document: EP

Effective date: 20210914