WO2021059984A1 - 頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム - Google Patents

頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム Download PDF

Info

Publication number
WO2021059984A1
WO2021059984A1 PCT/JP2020/034157 JP2020034157W WO2021059984A1 WO 2021059984 A1 WO2021059984 A1 WO 2021059984A1 JP 2020034157 W JP2020034157 W JP 2020034157W WO 2021059984 A1 WO2021059984 A1 WO 2021059984A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
data
preset data
user
feature amount
Prior art date
Application number
PCT/JP2020/034157
Other languages
English (en)
French (fr)
Inventor
邦明 高地
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2021059984A1 publication Critical patent/WO2021059984A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention relates to an out-of-head localization filter determination system, an out-of-head localization processing device, an out-of-head localization filter determination device, an out-of-head localization filter determination method, and a program.
  • the sound image localization technology there is an out-of-head localization technology in which the sound image is localized on the outside of the listener's head using headphones.
  • the sound image is localized out of the head by canceling the characteristics from the headphones to the ears and giving four characteristics from the stereo speakers to the ears.
  • measurement signals impulse sounds, etc.
  • ch two-channel speakers
  • a microphone hereinafter referred to as a microphone
  • the processing device creates a filter based on the sound pick-up signal obtained by the impulse response. By convolving the created filter into a 2ch audio signal, out-of-head localization reproduction can be realized.
  • a microphone in which the characteristics from the headphones to the ear to the eardrum (also called the external auditory canal transfer function ECTF or external auditory canal transfer characteristic) is installed in the listener's own ear. Measure with.
  • Patent Document 1 discloses a binaural hearing device using an extracranial sound image localization filter.
  • this device a large number of human pre-measured spatial transfer functions are converted into feature parameter vectors corresponding to human auditory characteristics.
  • the apparatus uses the data aggregated in a small number by performing clustering. Further, the device clusters the spatial transfer function measured in advance and the reverse transfer function of the actual ear headphones according to the physical dimensions of a human being. Then, the human data closest to the center of gravity of each cluster is used.
  • Patent Document 2 discloses an out-of-head localization filter determining device including a headphone and a microphone unit.
  • the server device associates the first preset data regarding the spatial acoustic transmission characteristic from the sound source to the ear of the person to be measured with the second preset data regarding the external auditory canal transmission characteristic of the ear of the person to be measured.
  • the user terminal is measuring measurement data regarding the user's ear canal transmission characteristics.
  • the user terminal transmits user data based on the measurement data to the server device.
  • the server device compares the user data with a plurality of second preset data. Specifically, the features based on the external auditory canal transmission characteristics of the user and the subject are compared.
  • the server device extracts the first preset data based on the comparison result.
  • Patent Document 2 feature quantities based on the external auditory canal transmission characteristics of the user and the subject are compared. Specifically, the similarity of the feature amount is calculated, and the first preset data of the subject to be measured with high correlation is extracted.
  • the feature amount has a frequency amplitude characteristic of 2 kHz to 20 kHz.
  • the spatial acoustic transmission characteristics corresponding to the external auditory canal transmission characteristics of the subject with high similarity are extracted and used as the user's spatial acoustic filter.
  • Patent Document 2 When performing a process using a spatial acoustic transmission filter from the user's external auditory canal transmission characteristics as in Patent Document 2, it is desirable to perform the process appropriately and promptly.
  • the feature amount is a frequency amplitude characteristic of 2 kHz to 20 kHz, it is difficult to reduce the amount of data. If there is preset data for many subjects, there is a problem that the processing time becomes long.
  • This embodiment has been made in view of the above points, and is capable of performing appropriate and rapid processing, an extra-head localization filter determination system, an extra-head localization processing device, an extra-head localization filter determination device, and an extra-head localization filter determination.
  • the purpose is to provide methods and programs.
  • the out-of-head localization filter determination system is attached to an output unit that is attached to the user and outputs sound toward the user's ear, and a sound that is attached to the user's ear and is output from the output unit.
  • a microphone unit that collects sound
  • a measurement processing device that outputs a measurement signal to the output unit and measures the sound collection signal output from the microphone unit
  • a server device that can communicate with the measurement processing device.
  • the server device is an out-of-head localization filter determination system comprising, the first preset data regarding the spatial acoustic transmission characteristics from the sound source to the subject's ear, and the external auditory canal transmission characteristics of the subject's ear.
  • a data storage unit that stores the second preset data related to the feature amount in association with each other, and stores a plurality of the first and second preset data acquired for a plurality of subjects.
  • the out-of-head localization filter determination system including a storage unit includes a frequency conversion unit that frequency-converts the sound collection signal picked up by the microphone unit to obtain frequency characteristics, and a smoothing unit that smoothes the frequency characteristics.
  • a feature amount extraction unit that obtains a smoothed peak and notch of the frequency characteristic and extracts the feature amount of the frequency characteristic as a user feature amount based on the peak and notch, and a feature amount extraction unit based on the user feature amount.
  • a data extraction unit that extracts a part of the second preset data among the plurality of second preset data stored in the data storage unit, the user feature amount, and the extracted second preset data. It is provided with a comparison unit for comparing with and a selection unit for selecting the first preset data from the plurality of first preset data based on the comparison result.
  • the out-of-head localization processing device includes a frequency conversion unit that obtains frequency characteristics by frequency-converting a sound-collecting signal acquired by collecting the measurement signal output from the output unit with the microphone unit. , A smoothing unit for smoothing the frequency characteristics, and the peaks and notches of the smoothed frequency characteristics are obtained, and the feature amount of the frequency characteristics is extracted as a user feature amount based on the peaks and notches.
  • a space acoustic filter setting unit that sets a spatial acoustic filter based on a unit, a spatial acoustic transmission characteristic associated with a feature amount similar to the user feature amount, and an output unit of the output unit based on the sound pick-up signal. It is provided with an inverse filter calculation unit that calculates an inverse filter that cancels the characteristics.
  • the extrahead localization filter determining device has the first preset data regarding the spatial acoustic transmission characteristics from the sound source to the subject's ear, and the first preset data regarding the characteristics of the external auditory canal transmission characteristics of the subject's ear.
  • a data storage unit that stores two preset data in association with each other, and a data storage unit that stores a plurality of the first and second preset data acquired for a plurality of subjects, and a user.
  • a data extraction unit that extracts a part of the second preset data among a plurality of second preset data stored in the data storage unit based on the feature amount, the user feature amount, and the second preset data.
  • the external auditory canal transmission characteristic is provided with a comparison unit for comparing the feature amount of the preset data of the above and a selection unit for selecting the first preset data from the plurality of first preset data based on the comparison result.
  • the frequency characteristics of the above are smoothed, and the feature amount is extracted based on the peaks and notches of the smoothed frequency characteristics.
  • the method for determining an out-of-head localization filter includes an output unit that is attached to the user and outputs a sound toward the user's ear, and a sound that is attached to the user's ear and is output from the output unit.
  • This is an out-of-head localization filter determination method for determining an out-of-head localization filter for the user by using a microphone unit having a microphone for collecting sound, and frequency-converting the sound collection signal collected by the microphone unit.
  • the step of obtaining the frequency characteristic, the step of smoothing the frequency characteristic, the peak and the notch of the smoothed frequency characteristic are obtained, and the feature amount of the frequency characteristic is calculated as the user feature amount based on the peak and the notch.
  • the program according to the present embodiment includes an output unit that is attached to the user and outputs sound toward the user's ear, and a microphone that is attached to the user's ear and collects the sound output from the output unit.
  • This is a program for causing a computer to execute an out-of-head localization filter determination method for determining an out-of-head localization filter for the user by using a microphone unit having the above, and the out-of-head localization filter determination method is the microphone unit.
  • the step of frequency-converting the sound pick-up signal picked up in (1) to obtain the frequency characteristic, the step of smoothing the frequency characteristic, and the peak and notch of the smoothed frequency characteristic are obtained, and the peak and the notch are used.
  • a step of extracting preset data, a step of comparing the user feature amount with the extracted second preset data, and a first preset from a plurality of first preset data based on the comparison result. Includes steps to select data.
  • an out-of-head localization filter determination system an out-of-head localization processing device, an out-of-head localization filter determination device, an out-of-head localization filter determination method, and a program capable of performing processing appropriately and quickly are provided. Can be done.
  • the extra-head localization process is to perform the extra-head localization process using the spatial acoustic transmission characteristic and the external auditory canal transmission characteristic.
  • the spatial acoustic transmission characteristic is a transmission characteristic from a sound source such as a speaker to the ear canal.
  • the ear canal transmission characteristic is the transmission characteristic from the ear canal entrance to the eardrum.
  • the external auditory canal transmission characteristic is measured while the headphones are worn, and the extra-head localization process is realized by using the measurement data.
  • the out-of-head localization process is executed on a user terminal such as a personal computer (PC), a smartphone, or a tablet terminal.
  • a user terminal is an information processing device having a processing means such as a processor, a storage means such as a memory or a hard disk, a display means such as a liquid crystal monitor, and an input means such as a touch panel, a button, a keyboard, and a mouse.
  • the user terminal has a communication function for transmitting and receiving data. Further, an output means (output unit) having headphones or earphones is connected to the user terminal.
  • the spatial acoustic transmission characteristics of an individual user are generally performed in a listening room in which acoustic equipment such as a speaker or indoor acoustic characteristics are arranged. That is, it is necessary for the user to go to the listening room or prepare a listening room at the user's home or the like. Therefore, it may not be possible to appropriately measure the spatial acoustic transmission characteristics of the individual user.
  • speakers Even if speakers are installed at the user's home to prepare a listening room, the speakers may be installed asymmetrically or the acoustic environment of the room may not be optimal for listening to music. In such cases, it is very difficult to measure appropriate spatial acoustic transmission characteristics at home.
  • the measurement of the external auditory canal transmission characteristics of the individual user is performed with the microphone unit and headphones attached. That is, if the user wears a microphone unit and headphones, the external auditory canal transmission characteristic can be measured. There is no need for the user to go to the listening room or set up a large listening room in the user's home. Further, the generation of the measurement signal for measuring the external auditory canal transmission characteristic, the recording of the sound collection signal, and the like can be performed by using a user terminal such as a smart phone or a PC.
  • the filter according to the spatial acoustic transmission characteristic is determined based on the measurement result of the external auditory canal transmission characteristic. That is, an extracranial localization processing filter suitable for the user is determined based on the measurement result of the external auditory canal transmission characteristic of the individual user.
  • the out-of-head localization processing system includes a user terminal and a server device.
  • the server device stores the spatial acoustic transmission characteristics and the external auditory canal transmission characteristics measured in advance for a plurality of subjects other than the user. That is, measurement of spatial acoustic transmission characteristics using a speaker as a sound source (hereinafter, also referred to as first pre-measurement) using a measuring device different from the user terminal, and measurement of external auditory canal transmission characteristics using headphones (second). (Also referred to as pre-measurement of).
  • the first pre-measurement and the second pre-measurement are performed on a person to be measured other than the user.
  • the server device stores the first preset data according to the result of the first pre-measurement and the second preset data according to the result of the second pre-measurement. By performing the first and second pre-measurements on the plurality of subjects, the plurality of first preset data and the plurality of second preset data are acquired.
  • the server device stores the first preset data regarding the spatial acoustic transmission characteristic and the second preset data regarding the external auditory canal transmission characteristic in association with each other for each person to be measured.
  • the server device stores a plurality of first preset data and a plurality of second preset data in the database.
  • the user measurement is a measurement using headphones as a sound source, as in the second pre-measurement.
  • the user terminal acquires measurement data regarding the external auditory canal transmission characteristic.
  • the user terminal transmits the user data based on the measurement data to the server device.
  • the server device compares the user data with the plurality of second preset data, respectively.
  • the server device determines the second preset data having a high correlation with the user data from the plurality of second preset data based on the comparison result.
  • the server device reads out the first preset data associated with the second preset data having a high correlation. That is, the server device extracts the first preset data suitable for the individual user from the plurality of first preset data based on the comparison result. The server device transmits the extracted first preset data to the user terminal. Then, the user terminal performs the out-of-head localization process by using the filter based on the first preset data and the inverse filter based on the user measurement.
  • FIG. 1 shows an out-of-head localization processing device 100 which is an example of the sound field reproducing device according to the present embodiment.
  • FIG. 1 is a block diagram of the out-of-head localization processing device 100.
  • the out-of-head localization processing device 100 reproduces the sound field for the user U who wears the headphones 43. Therefore, the out-of-head localization processing device 100 performs sound image localization processing on the stereo input signals XL and XR of Lch and Rch.
  • the Lch and Rch stereo input signals XL and XR are analog audio reproduction signals output from a CD (Compact Disc) player or the like, or digital audio data such as mp3 (MPEG Audio Layer-3).
  • the out-of-head localization processing device 100 is not limited to a physically single device, and some of the processing may be performed by different devices. For example, a part of the processing may be performed by a PC or the like, and the remaining processing may be performed by a DSP (Digital Signal Processor) or the like built in the headphones 43.
  • DSP Digital Signal Processor
  • the out-of-head localization processing device 100 includes an out-of-head localization processing unit 10, a filter unit 41, a filter unit 42, and headphones 43.
  • the out-of-head localization processing unit 10, the filter unit 41, and the filter unit 42 can be realized by a processor.
  • the out-of-head localization processing unit 10 includes convolution calculation units 11 to 12, 21 to 22, and adders 24 and 25.
  • the convolution calculation units 11 to 12 and 21 to 22 perform a convolution process using the spatial acoustic transmission characteristic.
  • Stereo input signals XL and XR from a CD player or the like are input to the out-of-head localization processing unit 10.
  • Spatial acoustic transmission characteristics are set in the out-of-head localization processing unit 10.
  • the out-of-head localization processing unit 10 convolves a filter having spatial acoustic transmission characteristics (hereinafter, also referred to as a spatial acoustic filter) with the stereo input signals XL and XR of each channel.
  • the spatial acoustic transmission characteristic may be a head-related transfer function HRTF measured on the head or auricle of the subject, or may be a dummy head or a third-party head-related transfer function.
  • the spatial acoustic transfer function is a set of four spatial acoustic transfer characteristics Hls, Hlo, Hro, and Hrs.
  • the data used for convolution by the convolution calculation units 11, 12, 21, and 22 serves as a spatial acoustic filter.
  • Each of the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs is measured using a measuring device described later.
  • the convolution calculation unit 11 convolves the spatial acoustic filter corresponding to the spatial acoustic transmission characteristic Hls with respect to the stereo input signal XL of the Lch.
  • the convolution calculation unit 11 outputs the convolution calculation data to the adder 24.
  • the convolution calculation unit 21 convolves a spatial acoustic filter corresponding to the spatial acoustic transmission characteristic Hro with respect to the stereo input signal XR of Rch.
  • the convolution calculation unit 21 outputs the convolution calculation data to the adder 24.
  • the adder 24 adds two convolution operation data and outputs the data to the filter unit 41.
  • the convolution calculation unit 12 convolves a spatial acoustic filter corresponding to the spatial acoustic transmission characteristic Hlo with respect to the Lch stereo input signal XL.
  • the convolution calculation unit 12 outputs the convolution calculation data to the adder 25.
  • the convolution calculation unit 22 convolves a spatial acoustic filter corresponding to the spatial acoustic transmission characteristic Hrs with respect to the stereo input signal XR of Rch.
  • the convolution calculation unit 22 outputs the convolution calculation data to the adder 25.
  • the adder 25 adds two convolution operation data and outputs the data to the filter unit 42.
  • the filter units 41 and 42 are set with an inverse filter that cancels the headphone characteristics (characteristics between the headphone playback unit and the microphone). Then, the inverse filter is convoluted into the reproduced signal (convolution calculation signal) processed by the out-of-head localization processing unit 10.
  • the filter unit 41 convolves the inverse filter with respect to the Lch signal from the adder 24.
  • the filter unit 42 convolves the inverse filter with respect to the Rch signal from the adder 25.
  • the reverse filter cancels the characteristics from the headphone unit to the microphone when the headphone 43 is attached.
  • the microphone may be placed anywhere between the ear canal entrance and the eardrum.
  • the inverse filter is calculated from the measurement result of the characteristics of the user U himself / herself.
  • the filter unit 41 outputs the corrected Lch signal to the left unit 43L of the headphones 43.
  • the filter unit 42 outputs the corrected Rch signal to the right unit 43R of the headphones 43.
  • the user U is wearing the headphones 43.
  • the headphone 43 outputs the Lch signal and the Rch signal toward the user U. As a result, the sound image localized outside the head of the user U can be reproduced.
  • the out-of-head localization processing device 100 performs the out-of-head localization processing by using the spatial acoustic filter corresponding to the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs and the inverse filter of the headphone characteristics.
  • the spatial acoustic filter corresponding to the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs and the inverse filter of the headphone characteristics are collectively referred to as an out-of-head localization processing filter.
  • the out-of-head localization filter is composed of four spatial acoustic filters and two inverse filters. Then, the out-of-head localization processing device 100 executes the out-of-head localization processing by performing a convolution calculation process on the stereo reproduction signal using a total of six out-of-head localization filters.
  • FIG. 2 is a diagram schematically showing a measurement configuration for performing the first pre-measurement on the person to be measured 1.
  • the measuring device 200 has a stereo speaker 5 and a microphone unit 2.
  • the stereo speaker 5 is installed in the measurement environment.
  • the measurement environment may be the user U's home room, an audio system sales store, a showroom, or the like.
  • the measurement environment is preferably a listening room with speakers and sound.
  • the measurement processing device 201 of the measuring device 200 performs arithmetic processing for appropriately generating the spatial acoustic filter.
  • the measurement processing device 201 includes, for example, a music player such as a CD player.
  • the measurement processing device 201 may be a personal computer (PC), a tablet terminal, a smart phone, or the like. Further, the measurement processing device 201 may be the server device itself.
  • the measurement processing device 201 includes a memory and a processor.
  • the memory stores processing programs, various parameters, measurement data, and the like.
  • the processor executes a processing program stored in memory. Each process is executed when the processor executes the process program.
  • the processor may be, for example, a CPU (Central Processing Unit), an FPGA (Field-Programmable Gate Array), a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a GPU (Graphics Processing Unit), or the like. ..
  • the stereo speaker 5 includes a left speaker 5L and a right speaker 5R.
  • a left speaker 5L and a right speaker 5R are installed in front of the person to be measured 1.
  • the left speaker 5L and the right speaker 5R output an impulse sound or the like for measuring an impulse response.
  • the number of speakers serving as sound sources will be described as 2 (stereo speakers), but the number of sound sources used for measurement is not limited to 2, and may be 1 or more. That is, the present embodiment can be similarly applied to a so-called multi-channel environment such as 1ch monaural or 5.1ch, 7.1ch, etc.
  • the microphone unit 2 is a stereo microphone having a left microphone 2L and a right microphone 2R.
  • the left microphone 2L is installed in the left ear 9L of the person to be measured 1
  • the right microphone 2R is installed in the right ear 9R of the person to be measured 1.
  • the microphones 2L and 2R pick up the measurement signal output from the stereo speaker 5 and acquire the sound pick-up signal.
  • the microphones 2L and 2R output the sound pick-up signal to the measurement processing device 201.
  • the person to be measured 1 may be a person or a dummy head. That is, in the present embodiment, the person to be measured 1 is a concept including not only a person but also a dummy head.
  • the impulse response is measured by measuring the impulse sound output by the left speaker 5L and the right speaker 5R with the microphones 2L and 2R.
  • the measurement processing device 201 stores the sound pick-up signal acquired by the impulse response measurement in a memory or the like.
  • the transmission characteristic Hro and the spatial acoustic transmission characteristic Hrs between the right speaker 5R and the right microphone 2R are measured.
  • the spatial acoustic transmission characteristic Hls is acquired by the left microphone 2L collecting the measurement signal output from the left speaker 5L.
  • the spatial acoustic transmission characteristic Hlo is acquired by the right microphone 2R collecting the measurement signal output from the left speaker 5L.
  • the spatial acoustic transmission characteristic Hiro is acquired by the left microphone 2L collecting the measurement signal output from the right speaker 5R.
  • the spatial acoustic transmission characteristic Hrs is acquired by the right microphone 2R picking up the measurement signal output from the right speaker 5R.
  • the measuring device 200 generates a spatial acoustic filter corresponding to the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs from the left and right speakers 5L and 5R to the left and right microphones 2L and 2R based on the sound pick-up signal. May be good.
  • the measurement processing device 201 cuts out the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs with a predetermined filter length.
  • the measurement processing device 201 may correct the measured spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs.
  • the measurement processing device 201 generates a spatial acoustic filter used for the convolution calculation of the out-of-head localization processing device 100.
  • the out-of-head localization processing device 100 uses a spatial acoustic filter according to the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs between the left and right speakers 5L and 5R and the left and right microphones 2L and 2R.
  • Perform out-of-head localization processing using That is, the out-of-head localization process is performed by convolving the spatial acoustic filter into the audio reproduction signal.
  • the measurement processing device 201 performs the same processing on the sound pick-up signals corresponding to each of the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs. That is, the same processing is performed on each of the four sound pick-up signals corresponding to the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs. As a result, it is possible to generate spatial acoustic filters corresponding to the spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs, respectively.
  • FIG. 3 shows a configuration for performing a second pre-measurement on the person to be measured 1.
  • the microphone unit 2 and the headphones 43 are connected to the measurement processing device 201.
  • the microphone unit 2 includes a left microphone 2L and a right microphone 2R.
  • the left microphone 2L is attached to the left ear 9L of the person to be measured 1.
  • the right microphone 2R is attached to the right ear 9R of the person to be measured 1.
  • the measurement processing device 201 and the microphone unit 2 may be the same as or different from the measurement processing device 201 and the microphone unit 2 of FIG.
  • the headphone 43 has a headphone band 43B, a left unit 43L, and a right unit 43R.
  • the headphone band 43B connects the left unit 43L and the right unit 43R.
  • the left unit 43L outputs sound toward the left ear 9L of the person to be measured 1.
  • the right unit 43R outputs sound toward the right ear 9R of the person to be measured 1.
  • the headphone 43 may be of any type, such as a closed type, an open type, a semi-open type, or a semi-closed type.
  • the microphone unit 2 is attached to the person to be measured 1 with the headphone 43 attached.
  • the left unit 43L and the right unit 43R of the headphones 43 are attached to the left ear 9L and the right ear 9R to which the left microphone 2L and the right microphone 2R are attached, respectively.
  • the headphone band 43B generates an urging force that presses the left unit 43L and the right unit 43R against the left ear 9L and the right ear 9R, respectively.
  • the left microphone 2L collects the sound output from the left unit 43L of the headphones 43.
  • the right microphone 2R collects the sound output from the right unit 43R of the headphones 43.
  • the microphone portions of the left microphone 2L and the right microphone 2R are arranged at sound collecting positions near the outer ear canal.
  • the left microphone 2L and the right microphone 2R are configured so as not to interfere with the headphone 43. That is, the subject 1 can wear the headphones 43 in a state where the left microphone 2L and the right microphone 2R are arranged at appropriate positions of the left ear 9L and the right ear 9R.
  • the left microphone 2L and the right microphone 2R may be built in the left unit 43L and the right unit 43R of the headphone 43, respectively, or may be provided separately from the headphone 43.
  • the measurement processing device 201 outputs a measurement signal to the left microphone 2L and the right microphone 2R.
  • the left microphone 2L and the right microphone 2R generate an impulse sound or the like.
  • the impulse sound output from the left unit 43L is measured by the left microphone 2L.
  • the impulse sound output from the right unit 43R is measured by the right microphone 2R. By doing so, the impulse response measurement is performed.
  • the measurement processing device 201 stores a sound collection signal based on the impulse response measurement in a memory or the like.
  • the transmission characteristic between the left unit 43L and the left microphone 2L that is, the ear canal transmission characteristic of the left ear
  • the transmission characteristic between the right unit 43R and the right microphone 2R that is, the ear canal transmission characteristic of the right ear.
  • the measurement data of the external auditory canal transmission characteristic of the left ear acquired by the left microphone 2L is referred to as measurement data ECTFL
  • measurement data of the external auditory canal transmission characteristic of the right ear acquired by the right microphone 2R is referred to as measurement data ECTFR.
  • the measurement processing device 201 has a memory for storing measurement data ECTFL and ECTFR, respectively.
  • the measurement processing device 201 generates an impulse signal, a TSP (Time Stretched Pulse) signal, or the like as a measurement signal for measuring the external auditory canal transmission characteristic or the spatial acoustic transmission characteristic.
  • the measurement signal includes a measurement sound such as an impulse sound.
  • the measuring device 200 shown in FIGS. 2 and 3 measures the external auditory canal transmission characteristics and the spatial acoustic transmission characteristics of the plurality of subjects 1.
  • the first pre-measurement according to the measurement configuration of FIG. 2 is performed on a plurality of subjects 1.
  • the second pre-measurement according to the measurement configuration of FIG. 3 is performed on a plurality of subjects 1.
  • the external auditory canal transmission characteristic and the spatial acoustic transmission characteristic are measured for each person to be measured 1.
  • FIG. 4 is a diagram showing the overall configuration of the out-of-head localization filter determination system 500.
  • the out-of-head localization filter determination system 500 includes an out-of-head localization processing device 100 and a server device 300.
  • the out-of-head localization processing device 100 and the server device 300 are connected via a network 400.
  • the network 400 is, for example, a public network such as the Internet or a mobile phone communication network.
  • the out-of-head localization processing device 100 and the server device 300 can communicate with each other wirelessly or by wire.
  • the out-of-head localization processing device 100 and the server device 300 may be integrated devices.
  • the out-of-head localization processing device 100 is a user terminal that outputs a reproduction signal that has undergone out-of-head localization processing to the user U. Further, the out-of-head localization processing device 100 measures the external auditory canal transmission characteristic of the user U. Therefore, the microphone unit 2 and the headphones 43 are connected to the out-of-head localization processing device 100.
  • the out-of-head localization processing device 100 performs impulse response measurement using the microphone unit 2 and the headphones 43, similarly to the measuring device 200 of FIG.
  • the microphone unit 2 and the headphones 43 may be wirelessly connected by Bluetooth (registered trademark) or the like.
  • the out-of-head localization processing device 100 includes a characteristic acquisition unit 111, a frequency conversion unit 112, a smoothing unit 113, a feature amount extraction unit 114, an inverse filter calculation unit 115, a filter setting unit 116, a transmission unit 121, and a reception unit. It has 122.
  • the out-of-head localization processing device 100 and the server device 300 are integrated devices, the device may include an acquisition unit for acquiring user data instead of the reception unit 122.
  • the characteristic acquisition unit 111 outputs a measurement signal that becomes an impulse sound to the headphones 43 in order to perform user measurement.
  • the microphone unit 2 collects the impulse sound output by the headphones 43.
  • the microphone unit 2 outputs a sound pick-up signal to the characteristic acquisition unit 111. Since the impulse response measurement is the same as that described in FIG. 3, the description thereof will be omitted as appropriate. That is, the out-of-head localization processing device 100 has the same function as the measurement processing device 201 of FIG.
  • the out-of-head localization processing device 100, the microphone unit 2, and the headphones 43 perform user measurement.
  • the characteristic acquisition unit 111 may perform A / D conversion, synchronous addition processing, or the like on the sound pick-up signal.
  • the characteristic acquisition unit 111 acquires measurement data related to the external auditory canal transmission characteristic.
  • the characteristic acquisition unit 111 has the same function as the measurement processing device 201 of FIG. 3 for performing impulse response measurement and the like.
  • the measurement data includes the measurement data regarding the external auditory canal transmission characteristic of the left ear 9L of the user U and the measurement data regarding the external auditory canal transmission characteristic of the right ear 9R.
  • f (t) be the external auditory canal transmission characteristic in the time domain.
  • FIG. 5 is a flowchart showing a process of extracting a feature amount.
  • the frequency conversion unit 112 frequency-converts the external auditory canal transmission characteristic f (t) (S11). For example, the frequency conversion unit 112 calculates the frequency amplitude characteristic and the frequency phase characteristic by performing a discrete Fourier transform on the external auditory canal transmission characteristic in the time domain. Further, the frequency conversion unit 112 may calculate the frequency amplitude characteristic and the frequency phase characteristic not only by the discrete Fourier transform but also by the discrete cosine transform or the like. The frequency power characteristic may be used instead of the frequency amplitude characteristic. Let F (f) be the frequency amplitude characteristic obtained by frequency conversion.
  • the smoothing unit 113 smoothes the frequency amplitude characteristic F (f) (S12).
  • F (f) frequency amplitude characteristic
  • S12 smoothing method
  • cepstrum analysis simple moving average, Savitzky-Golay filter, smoothing spline, and the like can be used.
  • the smoothed frequency amplitude characteristic is defined as the smoothing characteristic SF (f).
  • the feature amount extraction unit 114 detects the peak and notch of the smoothing characteristic SF (f) and extracts the feature amount (S13). Specifically, peaks and notches are detected based on the slope of the smoothing characteristic SF (f). The maximum value of the smoothing characteristic SF (f) is the peak, and the minimum value is the notch.
  • FIG. 6 is a diagram schematically showing smoothing characteristics. Here, an example is shown in which the smoothing characteristic includes three peaks and two notches.
  • the peak with the lowest frequency is the first peak P [1], and the notch with the lowest frequency is the first notch N [1].
  • the second peak P [2], the second notch N [2], and the third peak P [3] are set in order from the lower frequency side. Peaks and notches are generalized as P [l], N [l]. l is an integer of 1 or more and indicates a peak and notch number.
  • the feature amount extraction unit 114 extracts the peak frequency, the amplitude (gain) at the peak frequency, the notch frequency, and the amplitude (gain) at the notch frequency as the feature amount.
  • the amplitude at the peak frequency and the amplitude at the notch frequency are defined as the peak value and the notch value, respectively.
  • the peak frequencies of P [1] to P [3] are fp1 to fp3, respectively, and the peak values are gp1 to gp3.
  • the notch frequencies of N [1] to N [2] are set to np1 to np2, respectively, and the notch values are set to np1 to np2.
  • the peak value and the notch value are the amplitude values of the frequency amplitude characteristic F (f) before smoothing, but may be the amplitude values of the smoothing characteristic SF (f).
  • the peak value and the notch value are power values.
  • the peak P [1] is represented by a two-dimensional vector of (gp1, fp1).
  • peaks P [2] and P [3] are represented by two-dimensional vectors of (gp2, fp2) and (gp3, fp3), respectively.
  • Notches N [1] and N [2] are represented by two-dimensional vectors of (gn1, fn1) and (gn2, fn2), respectively.
  • the feature amount extracted by the feature amount extraction unit 114 is shown as a feature vector.
  • the feature vector has a dimension corresponding to the sum of the number of peaks and the number of notches. Specifically, assuming that the number of peaks is l_max and the number of notches is m_max, the number of dimensions of the feature vector is [2 ⁇ (l_max + m_max)]. For example, when the number of peaks is 3 and the number of notches is 2, the feature amount vector has 10 dimensions (fp1, gp1, fn1, gn1, fp2, gp2, fn2, gn2, fp3, gp3). In this way, the feature amount extraction unit 114 extracts the feature amount of the external auditory canal transmission characteristic. The feature amount extraction unit 114 extracts the feature amount of the left and right ear canal transmission characteristics, respectively.
  • the band for which the feature amount extraction unit 114 obtains the peak and the notch may be the entire frequency band or a part of the frequency band. For example, in the smoothing characteristics, peaks and notches in a frequency band of 4 kHz or higher may be obtained.
  • the transmission unit 121 transmits the feature amount extracted by the feature amount extraction unit 114 to the server device 300 as user data.
  • User data is data related to external auditory canal transmission characteristics. Specifically, the user data includes features of the user's ear canal transmission characteristics. Let the feature amounts of the user's ear canal transmission characteristics be the user feature amounts hpL_U and hpR_U.
  • the user feature amount hpL_U is a feature amount of the external auditory canal transmission characteristic of the user's left ear
  • the user feature amount hpR_U is a feature amount of the external auditory canal transmission characteristic of the user's left ear.
  • the inverse filter calculation unit 115 calculates the inverse filter based on the external auditory canal transmission characteristic f (t). For example, the inverse filter calculation unit 115 corrects the frequency amplitude characteristic F (f) and the frequency phase characteristic of the external auditory canal transmission characteristic f (t). The inverse filter calculation unit 115 calculates a time signal using the frequency characteristic and the phase characteristic by the inverse discrete Fourier transform. The inverse filter calculation unit 115 calculates an inverse filter by cutting out a time signal with a predetermined filter length.
  • the out-of-head localization processing device 100 stores the inverse filter in a memory or the like.
  • the reverse filter is a filter that cancels the headphone characteristics (characteristics between the headphone playback unit and the microphone).
  • the out-of-head localization processing device 100 stores the left and right inverse filters calculated by the inverse filter calculation unit 115.
  • the calculation method of the inverse filter a known method can be used, and therefore detailed description thereof will be omitted.
  • the inverse filter calculation unit 115 generates the left inverse filter Linv based on the external auditory canal transmission characteristic of the left ear.
  • the inverse filter calculation unit 115 generates the right inverse filter Rinv based on the external auditory canal transmission characteristic of the right ear.
  • the out-of-head localization processing device 100 performs the above processing, some or all of the processing may be performed by the server device 300.
  • the external auditory canal transmission characteristic f (t) measured by the out-of-head localization processing device 100 may be transmitted to the server device 300, and the server device 300 may perform frequency conversion, smoothing, and feature extraction processing.
  • the frequency conversion, smoothing, and feature amount extraction processing may be performed by either the server device 300 or the out-of-head localization processing device 100.
  • a device other than the out-of-head localization processing device 100 or the server device 300 may perform some processing.
  • the server device 300 will be described.
  • the server device 300 includes a receiving unit 301, a data extraction unit 302, a data storage unit 303, a comparison unit 304, a selection unit 305, and a transmission unit 306.
  • the receiving unit 301 receives the user data transmitted from the out-of-head localization processing device 100.
  • the user data includes user feature amounts hpL_U and hpR_U.
  • the data extraction unit 302 extracts a part of the preset data stored in the data storage unit 303 based on the user feature amount.
  • the data storage unit 303 is a database that stores data related to a plurality of subjects measured in advance measurement as preset data.
  • the database may be distributed across multiple storage devices.
  • the data stored in the data storage unit 303 will be described with reference to FIG. 7.
  • FIG. 7 is a table showing the data stored in the data storage unit 303.
  • the data storage unit 303 stores preset data for each of the left and right ears of the person to be measured.
  • the data storage unit 303 has a table format in which the subject ID, the left and right ears, the feature amount, the spatial acoustic transmission characteristic 1, and the spatial acoustic transmission characteristic 2 are arranged in one row.
  • the data format shown in FIG. 7 is an example, and a data format or the like in which objects of each parameter are associated with each other by a tag or the like may be adopted instead of the table format.
  • the data storage unit 303 stores two data sets for one person A to be measured. That is, the data storage unit 303 stores a data set relating to the left ear of the subject A and a data set relating to the right ear of the subject A.
  • One data set includes the subject ID, the left and right ears, the feature amount, the spatial acoustic transmission characteristic 1, and the spatial acoustic transmission characteristic 2.
  • the feature amount is data based on the second pre-measurement by the measuring device 200 shown in FIG.
  • the feature amount is extracted from the ear canal transmission characteristics from the first position in front of the external auditory canal to the microphones 2L and 2R. Specifically, the feature amount is extracted by subjecting the external auditory canal transmission characteristic of the person to be measured 1 to the process of FIG.
  • the feature amount of the user and the feature amount of the person to be measured are extracted by performing the same processing on the respective external auditory canal transmission characteristics.
  • the feature amount of the left ear of the subject A is shown as the feature amount hpL_A
  • the feature amount of the right ear of the subject A is shown as the feature amount hpR_A
  • the feature amount of the left ear of the subject B is shown as the feature amount hpL_B
  • the feature amount of the right ear of the subject B is shown as the feature amount hpR_B.
  • Spatial acoustic transmission characteristic 1 and spatial acoustic transmission characteristic 2 are data based on the first pre-measurement by the measuring device 200 shown in FIG.
  • the spatial acoustic transmission characteristic 1 is Hls_A
  • the spatial acoustic transmission characteristic 2 is Hro_A
  • the spatial acoustic transmission characteristic 1 is Hrs_A
  • the spatial acoustic transmission characteristic 2 is Hlo_A.
  • two spatial acoustic transmission characteristics for one ear are paired.
  • the spatial acoustic transmission characteristic 1 and the spatial acoustic transmission characteristic 2 may be data after being cut out by the filter length, or may be data before being cut out by the filter length.
  • the feature amount hpL_A, the spatial acoustic transmission characteristic Hls_A, and the spatial acoustic transmission characteristic Hro_A are associated with each other to form one data set.
  • the feature amount hpR_A, the spatial acoustic transmission characteristic Hrs_A, and the spatial acoustic transmission characteristic Hlo_A are associated with each other to form one data set.
  • the feature amount hpL_B, the spatial acoustic transmission characteristic Hls_B, and the spatial acoustic transmission characteristic Hro_B are associated with each other to form one data set.
  • the feature amount hpR_B, the spatial acoustic transmission characteristic Hrs_B, and the spatial acoustic transmission characteristic Hlo_B are associated with each other to form one data set.
  • the pair of spatial acoustic transmission characteristics 1 and 2 is used as the first preset data. That is, the spatial acoustic transmission characteristic 1 and the spatial acoustic transmission characteristic 2 constituting one data set are set as the first preset data. The features that make up one data set are used as the second preset data.
  • One data set contains a first preset data and a second preset data. Then, the data storage unit 303 stores the first preset data and the second preset data in association with each of the left and right ears of the person to be measured.
  • the data storage unit 303 stores 2n data sets for both ears.
  • the second preset data will be described in detail with reference to FIG.
  • FIG. 8 is a table showing the second preset data.
  • a feature amount is included for each of the left and right ears of the subject 1.
  • the feature amount includes the peak value, the peak frequency, the notch value, and the notch frequency.
  • GP1 and FP1 are the peak value and peak frequency of the first peak.
  • GN1 and FG1 are notch values and notch frequencies of the first notch.
  • the second preset data may include the number of peaks and the number of notches of the smoothing characteristic.
  • the number of peaks or the number of notches is different for each person to be measured. Further, even in the same subject 1, the number of peaks or the number of notches may differ between the left and right ears. Therefore, the number of data included as a feature amount differs for each data set.
  • the number of peaks and the number of notches may be the number of peaks and notches in all frequency bands, or may be the number in some frequency bands. For example, peaks and notches in a band above a predetermined frequency may be used as feature quantities.
  • the predetermined frequency is, for example, a frequency in the range of 2 kHz to 4 kHz.
  • the data extraction unit 302 searches for the second preset data in which the number of peaks and the number of notches match. Then, the data extraction unit 302 extracts the second preset data in which the number of peaks and the number of notches match. The data extraction unit 302 extracts the second preset data in which the number of peaks and the number of notches match from the data set stored in the data storage unit 303.
  • the number of peaks is 3 and the number of notches is 2. Therefore, in the table shown in FIG. 8, the number of peaks and the number of notches match between the left ear of the person to be measured with ID_A and the right ear of the person to be measured with ID_B.
  • the data extraction unit 302 extracts the feature amount hpL_A of the left ear of the person to be measured with ID_A and the feature amount hpR_B of the right ear of the person to be measured with ID_B.
  • the data extracted by the data extraction unit 302 is used as the extracted data.
  • the comparison unit 304 compares the extracted data (for example, feature amount hpL_A, feature amount hpL_A) with the user data (for example, user feature amount hpL_U) to obtain the degree of similarity.
  • the comparison unit 304 obtains the second preset data that is most similar to the user data among the extracted data.
  • the comparison unit 304 outputs the comparison result to the selection unit 305.
  • the selection unit 305 selects the first preset data corresponding to the second preset data most similar to the user data.
  • the first preset data includes the spatial acoustic transmission characteristic 1 and the spatial acoustic transmission characteristic 2.
  • the selection unit 305 selects the spatial acoustic transmission characteristics Hls_A and Hro_A corresponding to the feature amount hpL_A.
  • the characteristic selected by the selection unit 305 is used as the selection characteristic, and the data of the selection characteristic is used as the selection data.
  • the selected data is the first preset data included in one data set.
  • the selection data contains a pair of spatial acoustic transfer characteristics.
  • the data extraction unit 302, the comparison unit 304, and the selection unit 305 perform the same processing on the left and right user feature quantities, respectively.
  • a pair of spatial acoustic transmission characteristics for example, Hls_A, Hro_A
  • the pair of spatial acoustic transmission characteristics becomes the selection data.
  • the selection unit 305 selects selection data for each user's ear.
  • the transmission unit 306 transmits the selection data (first preset data) to the out-of-head localization processing device 100.
  • the transmission unit 306 performs processing (for example, modulation processing) according to the communication standard on the selected first preset data and transmits the selected first preset data.
  • the transmission unit 306 transmits a pair of spatial acoustic transmission characteristics as selection data for each of the user's left and right ears.
  • the data extraction unit 302 extracts a part of the data set from the data set stored in the data storage unit 303 based on the peak and the notch.
  • the comparison unit 304 compares the second preset data of the extracted data set with the user data.
  • the selection unit 305 selects the first preset data suitable for the user based on the comparison result between the second preset data and the user data.
  • the receiving unit 122 receives the selection data (first preset data) transmitted from the transmitting unit 306.
  • the receiving unit 122 performs processing (for example, demodulation processing) according to the communication standard on the received first preset data.
  • the receiving unit 122 receives a pair of spatial acoustic transmission characteristics as the first preset data regarding the left ear.
  • the receiving unit 122 receives a pair of spatial acoustic transmission characteristics as the first preset data regarding the right ear.
  • the filter setting unit 116 sets the spatial acoustic filter based on the first preset data.
  • the spatial acoustic transmission characteristic Hls_A included in the pair of spatial acoustic transmission characteristics becomes the spatial acoustic transmission characteristic Hls of the user U
  • the spatial acoustic transmission characteristic Hro_A becomes the spatial acoustic transmission characteristic Hro of the user U.
  • the pair of spatial acoustic transmission characteristics included in the first preset data which is the selected data, becomes the spatial acoustic transmission characteristics Hlo, Hrs of the user U.
  • the spatial acoustic transmission characteristic Hlo and Hrs of the user U are selected from the data of the spatial acoustic transmission characteristic 1 of FIG.
  • the spatial acoustic transmission characteristics Hlo and Hro of the user U are selected from the data of the spatial acoustic transmission characteristic 2 of FIG.
  • the filter setting unit 116 sets the first preset data as it is as a spatial acoustic filter.
  • the spatial acoustic transmission characteristic Hls_A becomes the spatial acoustic transmission characteristic Hls of the user U.
  • the filter setting unit 116 performs a process of cutting out the spatial acoustic transmission characteristic to the filter length.
  • the out-of-head localization processing device 100 stores the out-of-head localization filter in a memory or the like.
  • the filter setting unit 116 sets the spatial acoustic filter in the convolution calculation units 11, 12, 21, and 22 of FIG. Further, the filter setting unit 116 sets the inverse filter calculated by the inverse filter calculation unit 115 in the filter unit 41 and the filter unit 42.
  • the out-of-head localization processing device 100 performs arithmetic processing using a spatial acoustic filter corresponding to four spatial acoustic transmission characteristics Hls, Hlo, Hro, and Hrs, and an inverse filter.
  • the out-of-head localization processing device 100 uses four spatial acoustic filters and two inverse filters to perform the above-mentioned convolution calculation processing on the stereo input signal.
  • the data storage unit 303 stores the first preset data and the second preset data in association with each other for each person to be measured 1.
  • the first preset data is data relating to the spatial acoustic transmission characteristics of the subject 1.
  • the second preset data is data relating to the external auditory canal transmission characteristic of the subject 1. Specifically, the second preset data includes the feature amount of the external auditory canal transmission characteristic of the subject 1.
  • the comparison unit 304 compares the user data with the second preset data.
  • the user data includes a user feature amount related to the external auditory canal transmission characteristic obtained by the user measurement.
  • the comparison unit 304 obtains the similarity of the features.
  • the comparison unit 304 obtains the similarity of the features. Then, the comparison unit 304 determines the person to be measured 1 and the left and right ears that are similar to the user's ear canal transmission characteristics.
  • the selection unit 305 reads out the first preset data corresponding to the determined subject and the left and right ears. Then, the transmission unit 306 transmits the selected first preset data to the out-of-head localization processing device 100.
  • the out-of-head localization processing device 100 which is a user terminal, performs out-of-head localization processing using a spatial acoustic filter based on the first preset data and an inverse filter based on the measurement data.
  • the user data and the second preset data are features based on the peak and notch of the frequency amplitude characteristic.
  • the amount of data to be processed can be reduced.
  • the peak frequency, the peak value, the notch frequency, and the notch value are extracted as feature quantities. As a result, even when the data storage unit 303 stores preset data of a large number of subjects, matching can be appropriately performed with a small amount of data.
  • the method according to this embodiment it is not necessary to perform an auditory test to listen to a large number of preset characteristics. Therefore, the burden on the user can be reduced and the convenience can be improved. Then, by comparing the feature quantities of the person to be measured and the user, it is possible to select a person to be measured having similar characteristics. Then, since the acoustic transmission filter is generated from the first preset data of the selected subject's ear, a high out-of-head localization effect can be expected.
  • FIG. 9 is a flowchart showing an example of the process of obtaining the similarity.
  • the comparison unit 304 calculates the similarity using the inter-vector distance or the correlation coefficient.
  • the comparison unit 304 may calculate the similarity using both the inter-vector distance and the correlation coefficient.
  • the data extraction unit 302 calculates the evaluation range (S21).
  • the evaluation range is a frequency band for extracting peaks and notches.
  • the evaluation range is a frequency band of 4 kHz or higher. This is because individual characteristics are likely to appear in the frequency band of 4 kHz or higher.
  • the lower limit of the evaluation range is not limited to 4 kHz, and may be, for example, 2 kHz.
  • the upper limit of the evaluation range can be the maximum frequency of the frequency characteristic obtained by frequency conversion. If only the peaks and notches within the evaluation range have been extracted in advance, S21 can be omitted.
  • the data extraction unit 302 extracts data from the preset data stored in the data storage unit 303 (S22). That is, the data extraction unit 302 extracts the second preset data in which the number of peaks and the number of notches match in the evaluation range.
  • the comparison unit 304 normalizes and scales the user data and the second preset data. For example, when calculating the Euclidean distance, the value (unit) of the evaluation range differs depending on the frequency and amplitude value. Therefore, the comparison unit 304 normalizes the peak frequency and the notch frequency so that the minimum frequency of the frequency band to be evaluated is 0 and the maximum frequency is 1. In the amplitude value, the comparison unit 304 normalizes the peak value and the notch value so that the maximum value of the amplitude value (peak value) to be evaluated becomes 1 and the minimum value of the amplitude value (notch value) becomes 0. .. For example, in the example shown in FIG. 6, the range of fp1 to fp3 is 0 to 1 on the horizontal axis (frequency axis). Similarly, on the vertical axis (amplitude axis), the range of gn1 to gp3 is 0 to 1.
  • Scale conversion changes the scale of envelope data so that discrete spectral data (frequency amplitude characteristics) are evenly spaced on the logarithmic axis.
  • the frequency amplitude characteristics obtained by the frequency converter are evenly spaced in terms of frequency. That is, since the frequency amplitude characteristics are evenly spaced on the frequency linear axis, they are not evenly spaced on the frequency logarithmic axis. Therefore, interpolation processing is performed so that the frequency amplitude characteristic data are evenly spaced on the frequency logarithmic axis.
  • the comparison unit 304 interpolates the data in the low frequency band in which the data interval is coarse. Specifically, the comparison unit 304 obtains discrete envelope data arranged at equal intervals on the logarithmic axis by performing interpolation processing such as three-dimensional spline interpolation. Envelope data that has undergone scale conversion is defined as scale conversion data.
  • the scale conversion data is a spectrum in which the frequency is associated with the amplitude value or the power value.
  • the comparison unit 304 may convert the envelope data into a scale close to human hearing (referred to as an auditory scale), not limited to the logarithmic scale.
  • the comparison unit 304 scales the envelope data on an auditory scale by data interpolation. For example, the comparison unit 304 interpolates the data in the low frequency band in which the data interval is coarse in the auditory scale to make the data in the low frequency band dense. Data that are evenly spaced on the auditory scale are dense in the low frequency band and coarse in the high frequency band on the linear scale. By doing so, the comparison unit 304 can generate scale conversion data at equal intervals on the auditory scale. Of course, the scale conversion data does not have to be completely evenly spaced data in the auditory scale.
  • normalization and scale conversion do not have to be the same process.
  • the scale for finding the distance and the scale for finding the correlation coefficient may be different.
  • only one of normalization and scale conversion may be performed.
  • normalization and scale conversion may be omitted.
  • the processing order of normalization and scale conversion may be arbitrary, whichever comes first.
  • the comparison unit 304 calculates the distance between the feature vectors (S24).
  • the process for obtaining the distance between the feature vectors will be described with reference to FIG.
  • FIG. 10 is a flowchart showing a process of obtaining a distance.
  • the comparison unit 304 obtains the Euclidean distance of the feature vector for the user data and the second preset data.
  • q indicates the Euclidean distance.
  • is set (S33).
  • AP [l] is a two-dimensional vector indicating the l-th peak in the user data.
  • BP [l] is a two-dimensional vector indicating the l-th peak in the second preset data.
  • the comparison unit 304 obtains the Euclidean distance between the peaks of the l-th peaks.
  • l_max 3
  • the peak-to-peak distance between the first peaks first peak-to-peak distance
  • the peak-to-peak distance between the second peaks second peak-to-peak distance
  • the inter-peak distance third inter-peak distance
  • q is the sum of the distances between the first to third peaks.
  • m_max is an integer indicating the number of notches.
  • q +
  • is set (S36).
  • AP [m] is a two-dimensional vector indicating the m-th notch in the user data.
  • BP [m] is a two-dimensional vector indicating the m-th notch in the second preset data.
  • the comparison unit 304 obtains the Euclidean distance between the m-th notches.
  • AP [l], AN [l], BP [l], and BN [l] are data that have been normalized and scale-converted in S23.
  • the comparison unit 304 calculates the correlation coefficient (S26).
  • the process for obtaining the correlation coefficient will be described with reference to FIG.
  • AP [l], AN [m], BP [l], and BN [m] are normalized and scale-converted data in S25.
  • the comparison unit 304 interpolates the feature amount data (S41).
  • FIG. 12 shows an example of linearly interpolating feature data.
  • the user data has three peaks AP [1] to AP [3] and two notches AN [1] to AN [2].
  • the second preset data has three peaks BP [1] to BP [3] and two notches BN [1] to BN [2].
  • the comparison unit 304 calculates the amplitude value between the peak and the notch by linear interpolation.
  • linear interpolation Of course, not limited to linear interpolation, spline interpolation or the like may be used.
  • the data obtained by interpolating the user data is referred to as the interpolated data linAF (f)
  • the data obtained by interpolating the second preset data is referred to as the interpolated data linBF (f).
  • the number of peaks and notches in the two data looking for correlation may be small. In that case, it becomes difficult to sufficiently evaluate the similarity between the two waveforms. Therefore, the data (amplitude value) between the peak and the notch is interpolated. As a result, the correlation of the external auditory canal transmission characteristics can be obtained with high accuracy.
  • the comparison unit 304 calculates the evaluation range of the interpolated data (S42). For example, after interpolation, the maximum frequencies of the two data to be evaluated may differ. In this case, the maximum value of the evaluation range of the frequency axis is set up to the frequency with which the two maximum frequencies are smaller. In the example shown in FIG. 11, the peak frequency of BP [3] is larger than the peak frequency of AP [3]. Therefore, the interpolated data linAF (f) and linBF (f) are generated with the peak frequency of AP [3] as the maximum frequency. That is, the maximum value of the evaluation range is set based on the frequencies of AP [l_max], AN [m_max], BP [l_max], and BN [m_max].
  • the peak frequency of AP [l_max] is larger than the notch frequency of AN [m_max] and the peak frequency of BP [l_max] is larger than the notch frequency of BN [m_max]
  • the peak frequency of AP [l_max] and BP Of the peak frequencies of [l_max] is set as the maximum frequency of the interpolated data.
  • the notch frequency of AN [m_max] and BN Of the notch frequencies of [m_max] the smaller notch frequency is set as the maximum frequency of the interpolation data.
  • the minimum value of the evaluation range of the frequency axis may be 4 kHz at which personal characteristics are likely to appear. Since the frequency range in which personal characteristics are likely to appear may differ depending on the method for measuring the auricle characteristics, the minimum value of the evaluation range of the frequency axis does not need to be 4 kHz. As described in S21, the minimum value can be in the range of 2 kHz to 4 kHz.
  • the evaluation range calculated in S42 and the evaluation range calculated in S21 may be different or the same.
  • the comparison unit 304 calculates the correlation coefficient (S43). Specifically, the comparison unit 304 calculates the correlation coefficient r between the interpolated data linAF (f) and the interpolated data linBF (f) in the evaluation range.
  • the comparison unit 304 calculates the similarity based on the Euclidean distance q and the correlation coefficient r (S27).
  • the correlation coefficient r takes a value between -1 and +1 and indicates that the closer it is to +1 the more similar it is. Therefore, the smaller the value of (1-r), the more similar the characteristics.
  • the comparison unit 304 sets the similarity to q + (1-r). Alternatively, the comparison unit 304 may set the similarity to q * (1-r). Further, the comparison unit 304 may weight q and (1-r). For example, the comparison unit 304 may multiply at least one of q and (1-r) by a coefficient for weighting.
  • the comparison unit 304 calculates the degree of similarity with the user characteristics for all the data extracted in S22. That is, the comparison unit 304 calculates the similarity with the user data for each of the second preset data having the same number of peaks and the same number of notches. Then, the selection unit 305 selects the first preset data corresponding to the second preset data having the highest similarity (S28). In the present embodiment, since the similarity is obtained based on the correlation coefficient and the distance, it is possible to select the subject 1 whose characteristics are similar to those of the user. Then, since the selection unit 305 selects the first preset data of the selected ear of the subject to be measured, a high out-of-head localization effect can be expected.
  • the similarity is obtained based on the correlation coefficient and the distance, but the similarity may be obtained based on only one of the correlation coefficient and the distance. Further, in the present embodiment, since only the second preset data in which the number of peaks and the number of notches match is extracted, the number of dimensions of the feature vector can be made uniform. As a result, the distance between the vectors can be calculated appropriately, and more appropriate matching can be performed.
  • the correlation coefficient r between the interpolated data linAF (f) and the interpolated data linBF (f) was obtained, but the comparison unit 304 has the frequency amplitude characteristic F (f) and the interpolated data linBF (f).
  • the correlation coefficient may be obtained.
  • the comparison unit 304 may obtain the correlation coefficient between the smoothing characteristic SF (f) and the interpolated data linBF (f).
  • the out-of-head localization processing device 100 may transmit the external auditory canal transmission characteristic f (t), the frequency amplitude characteristic F (f), or the smoothing characteristic SF (f) to the server device 300. Further, a part or all of the processing for obtaining the frequency amplitude characteristic F (f) or the smoothing characteristic SF (f) may be performed by the server device 300.
  • the second preset data is clustered.
  • FIG. 13 is a table for explaining an example in which clustering is performed based on the number of peaks and the number of notches.
  • the second preset data in which the number of peaks and the number of notches match the user feature amount is extracted. Therefore, by clustering the second preset data in advance according to the number of peaks and the number of notches, the data extraction process can be performed quickly. For example, when the number of peaks is 3 and the number of notches is 2, the data extraction unit 302 extracts the second preset data included in the cluster 330.
  • the second preset data may be divided into clusters (groups) using other than the number of peaks and the number of notches.
  • clustering may be performed according to the feature vector. Specifically, clustering can be performed using the k-means method or the like. Further, the clustering may be hierarchical clustering or non-hierarchical clustering. Further, it is preferable to perform clustering so that each cluster contains a sufficient number of second preset data.
  • the data extraction unit 302 may extract the second preset data of the cluster to which the user feature amount belongs. In the data storage unit 303, it is sufficient that the plurality of the second preset data are classified into two or more clusters. The data extraction unit 302 extracts the second preset data included in the cluster to which the user feature amount belongs.
  • the out-of-head localization processing device 100 and the measurement processing device 201 perform arithmetic processing for appropriately generating a filter according to the measurement result.
  • the out-of-head localization processing device 100 and the measurement processing device 201 are a personal computer (PC), a tablet terminal, a smart phone, and the like, and include a memory and a processor.
  • the memory stores processing programs, various parameters, measurement data, and the like.
  • the processor executes a processing program stored in memory. Each process is executed when the processor executes the process program.
  • the processor may be, for example, a CPU (Central Processing Unit), an FPGA (Field-Programmable Gate Array), a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a GPU (Graphics Processing Unit), or the like. ..
  • a CPU Central Processing Unit
  • FPGA Field-Programmable Gate Array
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • GPU Graphics Processing Unit
  • the transmitting unit 121, the transmitting unit 306, the receiving unit 122, and the receiving unit 301 may be provided in other devices. Further, a plurality of devices may be dispersed to perform the processing. Of the flowcharts of FIGS. 5 and 9, some or all of the processing can be omitted. For example, S23 to S27 can be replaced with other comparison processing. That is, the comparison unit 304 may compare the user feature amount with the second preset data by a process other than S23 to S27.
  • Non-transitory computer-readable media include various types of tangible storage media (tangible storage media).
  • non-temporary computer-readable media examples include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) are included.
  • the program may also be supplied to the computer by various types of temporary computer-readable media. Examples of temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • This disclosure is applicable to filter generation for out-of-head localization processing.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本実施の形態にかかる外定位フィルタ決定システムは、収音信号を周波数変換して、周波数特性を求める周波数変換部(112)と、周波数特性を平滑化する平滑化部(113)と、平滑化された周波数特性のピーク及びノッチを求め、ピーク及びノッチに基づいて周波数特性の特徴量をユーザ特徴量として抽出する特徴量抽出部(114)と、データ格納部(303)から第2のプリセットデータを抽出するデータ抽出部(302)と、ユーザ特徴量と、抽出された第2のプリセットデータと、を比較する比較部(304)と、比較結果に基づいて、複数の前記第1のプリセットデータの中から第1のプリセットデータを選択する選択部(305)と、を備えている。

Description

頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム
 本発明は、頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラムに関する。
 音像定位技術として、ヘッドホンを用いて受聴者の頭部の外側に音像を定位させる頭外定位技術がある。頭外定位技術では、ヘッドホンから耳までの特性をキャンセルし、ステレオスピーカから耳までの4本の特性を与えることにより、音像を頭外に定位させている。
 頭外定位再生においては、2チャンネル(以下、chと記載)のスピーカから発した測定信号(インパルス音等)を聴取者本人(ユーザ)の耳に設置したマイクロフォン(以下、マイクとする)で録音する。そして、インパルス応答で得られた収音信号に基づいて、処理装置がフィルタを作成する。作成したフィルタを2chのオーディオ信号に畳み込むことにより、頭外定位再生を実現することができる。
 さらに、ヘッドホンから耳までの特性をキャンセルするためのフィルタを生成するために、ヘッドホンから耳元乃至鼓膜までの特性(外耳道伝達関数ECTF、外耳道伝達特性とも言う)を聴取者本人の耳に設置したマイクで測定する。
 特許文献1には、頭外音像定位フィルタを用いた両耳聴装置が開示されている。この装置では、多数の人間のあらかじめ測定された空間伝達関数を人間の聴覚特性に対応する特徴パラメータベクトルに変換している。そして、装置は、クラスタリングを行って少数に集約したデータを用いている。さらに、装置は、予め測定された空間伝達関数と、実耳ヘッドホン逆伝達関数を人間の身体的寸法によりクラスタリングを行っている。そして、各クラスタの重心に最も近い人間のデータを用いている。
 特許文献2には、ヘッドホンとマイクユニットとを備えた頭外定位フィルタ決定装置が開示されている。特許文献1では、サーバ装置が、音源から被測定者の耳までの空間音響伝達特性に関する第1のプリセットデータと、被測定者の耳の外耳道伝達特性に関する第2のプリセットデータとを対応付けて記憶している。ユーザ端末が、ユーザの外耳道伝達特性に関する測定データを測定している。ユーザ端末が測定データに基づくユーザデータをサーバ装置に送信している。サーバ装置は、ユーザデータを複数の第2のプリセットデータと比較している。具体的には、ユーザと被測定者の外耳道伝達特性に基づく特徴量同士を比較している。サーバ装置は、比較結果に基づいて、第1のプリセットデータを抽出している。
特開平8-111899号公報 特開2018―191208号公報
 しかしながら、特許文献1の装置では、身体的寸法によりクラスタリングを行っているため、ユーザ個人の身体的寸法を計測する必要がある。また、クラスタリングを適切に行うことができないおそれがある。この場合、ユーザに適した頭外音像定位フィルタを用いることができないという課題がある。
 また、特許文献2では、ユーザと被測定者の外耳道伝達特性に基づく特徴量同士を比較している。具体的には、特徴量の類似度を算出して、相関の高い被測定者の第1のプリセットデータを抽出している。特徴量は、2kHz~20kHzの周波数振幅特性となっている。類似度が高い被測定者の外耳道伝達特性に対応する空間音響伝達特性を抽出して、ユーザの空間音響フィルタとしている。
 特許文献2のように、ユーザの外耳道伝達特性から空間音響伝達フィルタを用いる処理を行う場合、適切かつ迅速に処理を行うことが望まれる。しかしながら、特許文献2では、2kHz~20kHzの周波数振幅特性を特徴量としているため、データ量の削減が困難である。多くの被測定者に関するプリセットデータがある場合、処理時間が長くなるという課題がある。
 本実施形態は上記の点に鑑みなされたものであり、適切かつ迅速に処理を行うことができる頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラムを提供することを目的とする。
 本実施の形態にかかる頭外定位フィルタ決定システムは、ユーザに装着され、前記ユーザの耳に向けて音を出力する出力ユニットと、前記ユーザの耳に装着され、前記出力ユニットから出力された音を収音するマイクユニットと、前記出力ユニットに対して測定信号を出力するとともに、前記マイクユニットから出力された収音信号を測定する測定処理装置と、前記測定処理装置と通信可能なサーバ装置と、を備えた頭外定位フィルタ決定システムであって、前記サーバ装置は、音源から被測定者の耳までの空間音響伝達特性に関する第1のプリセットデータと、前記被測定者の耳の外耳道伝達特性の特徴量に関する第2のプリセットデータと、を対応付けて記憶するデータ格納部であって、複数の被測定者に対して取得された複数の前記第1及び第2のプリセットデータを記憶するデータ格納部を備え、前記頭外定位フィルタ決定システムは、前記マイクユニットで収音された収音信号を周波数変換して、周波数特性を求める周波数変換部と、前記周波数特性を平滑化する平滑化部と、平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出する特徴量抽出部と、前記ユーザ特徴量に基づいて、前記データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するデータ抽出部と、前記ユーザ特徴量と、抽出された前記第2のプリセットデータとを比較する比較部と、比較結果に基づいて、複数の前記第1のプリセットデータの中から第1のプリセットデータを選択する選択部と、を備えている。
 本実施の形態にかかる頭外定位処理装置は、出力ユニットから出力された測定信号をマイクユニットで収音することで取得される収音信号を周波数変換して、周波数特性を求める周波数変換部と、前記周波数特性を平滑化する平滑化部と、平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出する特徴量抽出部と、前記ユーザ特徴量に類似する特徴量に対応付けられた空間音響伝達特性に基づいて、空間音響フィルタを設定する空間音響フィルタ設定部と、前記収音信号に基づいて、前記出力ユニットの特性をキャンセルする逆フィルタを算出する逆フィルタ算出部と、を備えている。
 本実施の形態にかかる頭外定位フィルタ決定装置は、音源から被測定者の耳までの空間音響伝達特性に関する第1のプリセットデータと、前記被測定者の耳の外耳道伝達特性の特徴量に関する第2のプリセットデータと、を対応付けて記憶するデータ格納部であって、複数の被測定者に対して取得された複数の前記第1及び第2のプリセットデータを記憶するデータ格納部と、ユーザ特徴量に基づいて、前記データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するデータ抽出部と、前記ユーザ特徴量と、前記第2のプリセットデータの特徴量とを比較する比較部と、比較結果に基づいて、複数の前記第1のプリセットデータの中から第1のプリセットデータを選択する選択部と、を備え、前記外耳道伝達特性の周波数特性が平滑化され、平滑化された前記周波数特性のピーク及びノッチに基づいて前記特徴量が抽出されている。
 本実施の形態にかかる頭外定位フィルタ決定方法は、ユーザに装着され、前記ユーザの耳に向けて音を出力する出力ユニットと、前記ユーザの耳に装着され、前記出力ユニットから出力された音を収音するマイクを有するマイクユニットと、を用いて、前記ユーザに対する頭外定位フィルタを決定する頭外定位フィルタ決定方法であって、前記マイクユニットで収音された収音信号を周波数変換して、周波数特性を求めるステップと、前記周波数特性を平滑化するステップと、平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出するステップと、前記ユーザ特徴量に基づいて、データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するステップと、前記ユーザ特徴量と、抽出された前記第2のプリセットデータとを比較するステップと、比較結果に基づいて、複数の第1のプリセットデータの中から第1のプリセットデータを選択するステップと、を含む。
 本実施の形態にかかるプログラムは、ユーザに装着され、前記ユーザの耳に向けて音を出力する出力ユニットと、前記ユーザの耳に装着され、前記出力ユニットから出力された音を収音するマイクを有するマイクユニットと、を用いて、前記ユーザに対する頭外定位フィルタを決定する頭外定位フィルタ決定方法をコンピュータに実行させるためのプログラムであって、前記頭外定位フィルタ決定方法は、前記マイクユニットで収音された収音信号を周波数変換して、周波数特性を求めるステップと、前記周波数特性を平滑化するステップと、平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出するステップと、前記ユーザ特徴量に基づいて、データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するステップと、前記ユーザ特徴量と、抽出された前記第2のプリセットデータとを比較するステップと、比較結果に基づいて、複数の第1のプリセットデータの中から第1のプリセットデータを選択するステップと、を含む。
 本実施形態によれば、適切かつ迅速に処理を行うことができる頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラムを提供することができる。
本実施の形態に係る頭外定位処理装置を示すブロック図である。 測定装置の構成を模式的に示す図である。 測定装置の構成を模式的に示す図である。 頭外定位フィルタ決定システムの構成を示すブロック図である。 特徴量を抽出する処理を示すフローチャートである。 平滑化特性を模式的に示すグラフである。 データ格納部に格納されているプリセットデータを示すテーブルである。 特徴量のデータを示すテーブルである。 サーバ装置における処理を示すフローチャートである。 特徴ベクトルの距離を算出する処理を示すフローチャートである。 ユーザデータと第2のプリセットデータとの相関を算出する処理を示すフローチャートである。 補間特性を模式的に示すグラフである。 プリセットデータのクラスタを説明するための図である。
(概要)
 まず、音像定位処理の概要について説明する。ここでは、音像定位処理装置の一例である頭外定位処理について説明する。本実施形態にかかる頭外定位処理は、空間音響伝達特性と外耳道伝達特性を用いて頭外定位処理を行うものである。空間音響伝達特性は、スピーカなどの音源から外耳道までの伝達特性である。外耳道伝達特性は、外耳道入口から鼓膜までの伝達特性である。本実施形態では、ヘッドホンを装着した状態での外耳道伝達特性を測定し、その測定データを用いて頭外定位処理を実現している。
 本実施の形態にかかる頭外定位処理は、パーソナルコンピュータ(PC)、スマートホン、タブレット端末などのユーザ端末で実行される。ユーザ端末は、プロセッサ等の処理手段、メモリやハードディスクなどの記憶手段、液晶モニタ等の表示手段、タッチパネル、ボタン、キーボード、マウスなどの入力手段を有する情報処理装置である。ユーザ端末は、データを送受信する通信機能を有している。さらに、ユーザ端末には、ヘッドホン又はイヤホンを有する出力手段(出力ユニット)が接続される。
 高い定位効果を得るには、ユーザ本人の特性を測定して頭外定位フィルタを生成する必要がある。ユーザ個人の空間音響伝達特性は、スピーカ等の音響機材や室内の音響特性が整えられたリスニングルームで行われることが一般的である。すなわち、ユーザがリスニングルームに行くか、ユーザの自宅などにリスニングルームを準備する必要がある。このため、ユーザ個人の空間音響伝達特性を適切に測定することができない場合がある。
 また、ユーザの自宅などにスピーカを設置してリスニングルームを準備した場合でも、左右非対称にスピーカが設置されている場合や、部屋の音響環境が音楽聴取に最適でない場合がある。このような場合、自宅で適切な空間音響伝達特性を測定することは大変困難である。
 一方、ユーザ個人の外耳道伝達特性の測定は、マイクユニット、及びヘッドホンを装着した状態で行われる。すなわち、ユーザがマイクユニット、及びヘッドホンを装着していれば、外耳道伝達特性を測定することができる。ユーザがリスニングルームに行く必要や、ユーザの家に大がかりなリスニングルームを準備する必要がない。また、外耳道伝達特性を測定するための測定信号の発生や、収音信号の記録などはスマートホンやPCなどのユーザ端末を用いて、行うことができる。
 このように、ユーザ個人に対して、空間音響伝達特性の測定を実施することが困難である場合がある。そこで、本実施の形態にかかる頭外定位処理システムは、外耳道伝達特性の測定結果に基づいて、空間音響伝達特性に応じたフィルタを決定している。すなわち、ユーザ個人の外耳道伝達特性の測定結果に基づいて、ユーザに適した頭外定位処理フィルタを決定している。
 具体的には、頭外定位処理システムは、ユーザ端末と、サーバ装置とを備えている。ユーザ以外の複数の被測定者に対して事前に測定された空間音響伝達特性及び外耳道伝達特性をサーバ装置が格納しておく。すなわち、ユーザ端末とは異なる測定装置を用いて、音源としてスピーカを用いた空間音響伝達特性の測定(以下、第1の事前測定とも称する)と、ヘッドホンを用いた外耳道伝達特性の測定(第2の事前測定とも称する)を、行う。第1の事前測定及び第2の事前測定は、ユーザ以外の被測定者に対して実施される。
 サーバ装置は、第1の事前測定の結果に応じた第1のプリセットデータと、第2の事前測定の結果に応じた第2のプリセットデータとを格納している。複数の被測定者に対して第1及び第2の事前測定を行うことで、複数の第1のプリセットデータと、複数の第2のプリセットデータとが取得される。空間音響伝達特性に関する第1のプリセットデータと、外耳道伝達特性に関する第2のプリセットデータとを、サーバ装置が、被測定者毎に対応付けて記憶する。サーバ装置は、データベースに、複数の第1のプリセットデータと、複数の第2のプリセットデータとを格納している。
 さらに、頭外定位処理を実行するユーザ個人に対しては、ユーザ端末を用いて、外耳道伝達特性のみを測定する(以下、ユーザ測定とする)。ユーザ測定は、第2の事前測定と同様に、音源としてヘッドホンを用いた測定である。ユーザ端末は、外耳道伝達特性に関する測定データを取得する。そして、ユーザ端末は、測定データに基づくユーザデータをサーバ装置に送信する。サーバ装置は、ユーザデータを複数の第2のプリセットデータとそれぞれ比較する。サーバ装置は、比較結果に基づいて、複数の第2のプリセットデータの中からユーザデータとの相関が高い第2のプリセットデータを決定する。
 そして、サーバ装置は、相関の高い第2のプリセットデータに対応付けられた第1のプリセットデータを読み出す。すなわち、サーバ装置は、比較結果に基づいて、複数の第1のプリセットデータの中から、ユーザ個人に適した第1のプリセットデータを抽出する。サーバ装置は、抽出した第1のプリセットデータをユーザ端末に送信する。そして、ユーザ端末は、第1のプリセットデータに基づくフィルタと、ユーザ測定に基づく逆フィルタとを用いて、頭外定位処理を行う。
実施の形態1.
(頭外定位処理装置)
 まず、本実施の形態にかかる音場再生装置の一例である頭外定位処理装置100を図1に示す。図1は、頭外定位処理装置100のブロック図である。頭外定位処理装置100は、ヘッドホン43を装着するユーザUに対して音場を再生する。そのため、頭外定位処理装置100は、LchとRchのステレオ入力信号XL、XRについて、音像定位処理を行う。LchとRchのステレオ入力信号XL、XRは、CD(Compact Disc)プレイヤーなどから出力されるアナログのオーディオ再生信号、又は、mp3(MPEG Audio Layer-3)等のデジタルオーディオデータである。なお、頭外定位処理装置100は、物理的に単一な装置に限られるものではなく、一部の処理が異なる装置で行われてもよい。例えば、一部の処理がPCなどにより行われ、残りの処理がヘッドホン43に内蔵されたDSP(Digital Signal Processor)などにより行われてもよい。
 頭外定位処理装置100は、頭外定位処理部10、フィルタ部41、フィルタ部42、及びヘッドホン43を備えている。頭外定位処理部10、フィルタ部41、及びフィルタ部42はプロセッサにより実現可能である。
 頭外定位処理部10は、畳み込み演算部11~12、21~22、及び加算器24、25を備えている。畳み込み演算部11~12、21~22は、空間音響伝達特性を用いた畳み込み処理を行う。頭外定位処理部10には、CDプレイヤーなどからのステレオ入力信号XL、XRが入力される。頭外定位処理部10には、空間音響伝達特性が設定されている。頭外定位処理部10は、各chのステレオ入力信号XL、XRに対し、空間音響伝達特性のフィルタ(以下、空間音響フィルタとも称する)を畳み込む。空間音響伝達特性は被測定者の頭部や耳介で測定した頭部伝達関数HRTFでもよいし、ダミーヘッドまたは第三者の頭部伝達関数であってもよい。
 4つの空間音響伝達特性Hls、Hlo、Hro、Hrsを1セットとしたものを空間音響伝達関数とする。畳み込み演算部11、12、21、22で畳み込みに用いられるデータが空間音響フィルタとなる。空間音響伝達特性Hls、Hlo、Hro、Hrsのそれぞれは、後述する測定装置を用いて測定されている。
 そして、畳み込み演算部11は、Lchのステレオ入力信号XLに対して空間音響伝達特性Hlsに応じた空間音響フィルタを畳み込む。畳み込み演算部11は、畳み込み演算データを加算器24に出力する。畳み込み演算部21は、Rchのステレオ入力信号XRに対して空間音響伝達特性Hroに応じた空間音響フィルタを畳み込む。畳み込み演算部21は、畳み込み演算データを加算器24に出力する。加算器24は2つの畳み込み演算データを加算して、フィルタ部41に出力する。
 畳み込み演算部12は、Lchのステレオ入力信号XLに対して空間音響伝達特性Hloに応じた空間音響フィルタを畳み込む。畳み込み演算部12は、畳み込み演算データを、加算器25に出力する。畳み込み演算部22は、Rchのステレオ入力信号XRに対して空間音響伝達特性Hrsに応じた空間音響フィルタを畳み込む。畳み込み演算部22は、畳み込み演算データを、加算器25に出力する。加算器25は2つの畳み込み演算データを加算して、フィルタ部42に出力する。
 フィルタ部41、42にはヘッドホン特性(ヘッドホンの再生ユニットとマイク間の特性)をキャンセルする逆フィルタが設定されている。そして、頭外定位処理部10での処理が施された再生信号(畳み込み演算信号)に逆フィルタを畳み込む。フィルタ部41で加算器24からのLch信号に対して、逆フィルタを畳み込む。同様に、フィルタ部42は加算器25からのRch信号に対して逆フィルタを畳み込む。逆フィルタは、ヘッドホン43を装着した場合に、ヘッドホンユニットからマイクまでの特性をキャンセルする。マイクは、外耳道入口から鼓膜までの間ならばどこに配置してもよい。逆フィルタは、ユーザU本人の特性の測定結果から算出されている。
 フィルタ部41は、補正されたLch信号をヘッドホン43の左ユニット43Lに出力する。フィルタ部42は、補正されたRch信号をヘッドホン43の右ユニット43Rに出力する。ユーザUは、ヘッドホン43を装着している。ヘッドホン43は、Lch信号とRch信号をユーザUに向けて出力する。これにより、ユーザUの頭外に定位された音像を再生することができる。
 このように、頭外定位処理装置100は、空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、ヘッドホン特性の逆フィルタを用いて、頭外定位処理を行っている。以下の説明において、空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、ヘッドホン特性の逆フィルタとをまとめて頭外定位処理フィルタとする。2chのステレオ再生信号の場合、頭外定位フィルタは、4つの空間音響フィルタと、2つの逆フィルタとから構成されている。そして、頭外定位処理装置100は、ステレオ再生信号に対して合計6個の頭外定位フィルタを用いて畳み込み演算処理を行うことで、頭外定位処理を実行する。
(空間音響伝達特性の測定装置)
 図2を用いて、空間音響伝達特性Hls、Hlo、Hro、Hrsを測定する測定装置200について説明する。図2は、被測定者1に対して第1の事前測定を行うための測定構成を模式的に示す図である。
 図2に示すように、測定装置200は、ステレオスピーカ5とマイクユニット2を有している。ステレオスピーカ5が測定環境に設置されている。測定環境は、ユーザUの自宅の部屋やオーディオシステムの販売店舗やショールーム等でもよい。測定環境は、スピーカや音響の整ったリスニングルームであることが好ましい。
 本実施の形態では、測定装置200の測定処理装置201が、空間音響フィルタを適切に生成するための演算処理を行っている。測定処理装置201は、例えば、CDプレイヤー等の音楽プレイヤーなどを有している。測定処理装置201は、パーソナルコンピュータ(PC)、タブレット端末、スマートホン等であってもよい。また、測定処理装置201は、サーバ装置自体であってもよい。
 測定処理装置201は、メモリ、及びプロセッサを備えている。メモリは、処理プログラムや各種パラメータや測定データなどを記憶している。プロセッサは、メモリに格納された処理プログラムを実行する。プロセッサが処理プログラムを実行することで、各処理が実行される。プロセッサは、例えば、CPU(Central Processing Unit)、FPGA(Field-Programmable Gate Array)、DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit)、又は、GPU(Graphics Processing Unit)等であってもよい。
 ステレオスピーカ5は、左スピーカ5Lと右スピーカ5Rを備えている。例えば、被測定者1の前方に左スピーカ5Lと右スピーカ5Rが設置されている。左スピーカ5Lと右スピーカ5Rは、インパルス応答測定を行うためのインパルス音等を出力する。以下、本実施の形態では、音源となるスピーカの数を2(ステレオスピーカ)として説明するが、測定に用いる音源の数は2に限らず、1以上であればよい。すなわち、1chのモノラル、または、5.1ch、7.1ch等の、いわゆるマルチチャンネル環境においても同様に、本実施の形態を適用することができる。
 マイクユニット2は、左のマイク2Lと右のマイク2Rを有するステレオマイクである。左のマイク2Lは、被測定者1の左耳9Lに設置され、右のマイク2Rは、被測定者1の右耳9Rに設置されている。具体的には、左耳9L、右耳9Rの外耳道入口から鼓膜までの位置にマイク2L、2Rを設置することが好ましい。マイク2L、2Rは、ステレオスピーカ5から出力された測定信号を収音して、収音信号を取得する。マイク2L、2Rは収音信号を測定処理装置201に出力する。被測定者1は、人でもよく、ダミーヘッドでもよい。すなわち、本実施形態において、被測定者1は人だけでなく、ダミーヘッドを含む概念である。
 上記のように、左スピーカ5L、右スピーカ5Rで出力されたインパルス音をマイク2L、2Rで測定することでインパルス応答が測定される。測定処理装置201は、インパルス応答測定により取得した収音信号をメモリなどに記憶する。これにより、左スピーカ5Lと左マイク2Lとの間の空間音響伝達特性Hls、左スピーカ5Lと右マイク2Rとの間の空間音響伝達特性Hlo、右スピーカ5Rと左マイク2Lとの間の空間音響伝達特性Hro、右スピーカ5Rと右マイク2Rとの間の空間音響伝達特性Hrsが測定される。すなわち、左スピーカ5Lから出力された測定信号を左マイク2Lが収音することで、空間音響伝達特性Hlsが取得される。左スピーカ5Lから出力された測定信号を右マイク2Rが収音することで、空間音響伝達特性Hloが取得される。右スピーカ5Rから出力された測定信号を左マイク2Lが収音することで、空間音響伝達特性Hroが取得される。右スピーカ5Rから出力された測定信号を右マイク2Rが収音することで、空間音響伝達特性Hrsが取得される。
 また、測定装置200は、収音信号に基づいて、左右のスピーカ5L、5Rから左右のマイク2L、2Rまでの空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタを生成してもよい。例えば、測定処理装置201は、空間音響伝達特性Hls、Hlo、Hro、Hrsを所定のフィルタ長で切り出す。測定処理装置201は、測定した空間音響伝達特性Hls、Hlo、Hro、Hrsを補正してもよい。
 このようにすることで、測定処理装置201は、頭外定位処理装置100の畳み込み演算に用いられる空間音響フィルタを生成する。図1で示したように、頭外定位処理装置100が、左右のスピーカ5L、5Rと左右のマイク2L、2Rとの間の空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタを用いて頭外定位処理を行う。すなわち、空間音響フィルタをオーディオ再生信号に畳み込むことにより、頭外定位処理を行う。
 測定処理装置201は、空間音響伝達特性Hls、Hlo、Hro、Hrsのそれぞれに対応する収音信号に対して同様の処理を実施している。すなわち、空間音響伝達特性Hls、Hlo、Hro、Hrsに対応する4つの収音信号に対して、それぞれ同様の処理が実施される。これにより、空間音響伝達特性Hls、Hlo、Hro、Hrsに対応する空間音響フィルタをそれぞれ生成することができる。
(外耳道伝達特性の測定)
 次に、外耳道伝達特性を測定するための測定装置200について、図3を用いて説明する。図3は、被測定者1に対して第2の事前測定を行うための構成を示している。
 測定処理装置201には、マイクユニット2と、ヘッドホン43と、が接続されている。マイクユニット2は、左マイク2Lと、右マイク2Rとを備えている。左マイク2Lは、被測定者1の左耳9Lに装着される。右マイク2Rは、被測定者1の右耳9Rに装着される。測定処理装置201、及びマイクユニット2は、図2の測定処理装置201、及びマイクユニット2と同じものでもよく、異なるものでもよい。
 ヘッドホン43は、ヘッドホンバンド43Bと、左ユニット43Lと、右ユニット43Rとを、有している。ヘッドホンバンド43Bは、左ユニット43Lと右ユニット43Rとを連結する。左ユニット43Lは被測定者1の左耳9Lに向かって音を出力する。右ユニット43Rは被測定者1の右耳9Rに向かって音を出力する。ヘッドホン43は密閉型、開放型、半開放型、または半密閉型等、ヘッドホンの種類を問わない。ヘッドホン43は、ヘッドホン43が装着された状態で、マイクユニット2が被測定者1に装着される。すなわち、左マイク2L、右マイク2Rが装着された左耳9L、右耳9Rにヘッドホン43の左ユニット43L、右ユニット43Rがそれぞれ装着される。ヘッドホンバンド43Bは、左ユニット43Lと右ユニット43Rとをそれぞれ左耳9L、右耳9Rに押し付ける付勢力を発生する。
 左マイク2Lは、ヘッドホン43の左ユニット43Lから出力された音を収音する。右マイク2Rは、ヘッドホン43の右ユニット43Rから出力された音を収音する。左マイク2L、及び右マイク2Rのマイク部は、外耳孔近傍の収音位置に配置される。左マイク2L、及び右マイク2Rは、ヘッドホン43に干渉しないように構成されている。すなわち、左マイク2L、及び右マイク2Rは左耳9L、右耳9Rの適切な位置に配置された状態で、被測定者1がヘッドホン43を装着することができる。なお、左マイク2L、及び右マイク2Rは、それぞれヘッドホン43の左ユニット43L、及び右ユニット43Rに内蔵されていてもよく、ヘッドホン43と別個に設けられていても良い。
 測定処理装置201は、左マイク2L、及び右マイク2Rに対して測定信号を出力する。これにより、左マイク2L、及び右マイク2Rはインパルス音などを発生する。具体的には、左ユニット43Lから出力されたインパルス音を左マイク2Lで測定する。右ユニット43Rから出力されたインパルス音を右マイク2Rで測定する。このようにすることで、インパルス応答測定が実施される。
 測定処理装置201は、インパルス応答測定に基づく収音信号をメモリなどに記憶する。これにより、左ユニット43Lと左マイク2Lとの間の伝達特性(すなわち、左耳の外耳道伝達特性)と、右ユニット43Rと右マイク2Rとの間の伝達特性(すなわち、右耳の外耳道伝達特性)が取得される。ここで、左マイク2Lが取得した左耳の外耳道伝達特性の測定データを測定データECTFLとし、右マイク2Rが取得した右耳の外耳道伝達特性の測定データを測定データECTFRとする。
 測定処理装置201は、測定データECTFL、ECTFRをそれぞれ記憶するメモリなどを有している。なお、測定処理装置201は、外耳道伝達特性又は空間音響伝達特性を測定するための測定信号として、インパルス信号やTSP(Time Stretched Pulse)信号等を発生する。測定信号はインパルス音等の測定音を含んでいる。
 図2、図3で示した測定装置200によって、複数の被測定者1の外耳道伝達特性、及び空間音響伝達特性を測定する。本実施の形態では、図2の測定構成による第1の事前測定を複数の被測定者1に対して実施する。同様に、図3の測定構成による第2の事前測定を複数の被測定者1に対して実施する。これにより、被測定者1毎に、外耳道伝達特性、及び空間音響伝達特性が測定される。
(頭外定位フィルタ決定システム)
 次に、本実施の形態にかかる頭外定位フィルタ決定システム500について、図4を用いて説明する。図4は、頭外定位フィルタ決定システム500の全体構成を示す図である。頭外定位フィルタ決定システム500は、頭外定位処理装置100と、サーバ装置300と、を備えている。
 頭外定位処理装置100とサーバ装置300とは、ネットワーク400を介して接続されている。ネットワーク400は、例えば、インターネットや携帯電話通信網などの公衆ネットワークなどである。頭外定位処理装置100とサーバ装置300とは無線又は有線により通信可能になっている。なお、頭外定位処理装置100とサーバ装置300とは一体の装置であってもよい。
 頭外定位処理装置100は、図1で示したように、頭外定位処理された再生信号をユーザUに出力するユーザ端末となる。さらに、頭外定位処理装置100は、ユーザUの外耳道伝達特性の測定を行う。そのため、頭外定位処理装置100には、マイクユニット2とヘッドホン43とが接続されている。頭外定位処理装置100は、図3の測定装置200と同様に、マイクユニット2と、ヘッドホン43とを用いたインパルス応答測定を行う。なお、マイクユニット2、及びヘッドホン43とBlueTooth(登録商標)などにより無線接続されていてもよい。
 頭外定位処理装置100は、特性取得部111、周波数変換部112,平滑化部113、特徴量抽出部114と、逆フィルタ算出部115と、フィルタ設定部116と、送信部121と、受信部122を備えている。なお、頭外定位処理装置100とサーバ装置300とが一体の装置である場合、該装置は受信部122に代えてユーザデータを取得する取得部を備えていてもよい。
 特性取得部111は、ユーザ測定を行うため、インパルス音となる測定信号をヘッドホン43に出力する。ヘッドホン43が出力したインパルス音をマイクユニット2が収音する。マイクユニット2は収音信号を特性取得部111に出力する。なお、インパルス応答測定については、図3の説明と同様であるため、適宜説明を省略する。すなわち、頭外定位処理装置100が、図3の測定処理装置201と同様の機能を有している。頭外定位処理装置100と、マイクユニット2と、ヘッドホン43とがユーザ測定を行う。特性取得部111は、収音信号に対して、A/D変換や同期加算処理などを行ってもよい。
 特性取得部111は、外耳道伝達特性に関する測定データを取得する。特性取得部111は、インパルス応答測定等を行うために、図3の測定処理装置201と同様の機能を有している。測定データは、ユーザUの左耳9Lの外耳道伝達特性に関する測定データと、右耳9Rの外耳道伝達特性に関する測定データとを含んでいる。ここで、時間領域の外耳道伝達特性をf(t)とする。
 以下、図4と共に、図5を参照して外耳道伝達特性の特徴量を求める処理について説明する。図5は、特徴量を抽出する処理を示すフローチャートである。
 周波数変換部112が、外耳道伝達特性f(t)を周波数変換する(S11)。例えば、周波数変換部112が、時間領域の外耳道伝達特性に対して離散フーリエ変換を行うことで、周波数振幅特性及び周波数位相特性を算出する。また、周波数変換部112は、離散フーリエ変換に限らず、離散コサイン変換などにより、周波数振幅特性及び周波数位相特性を算出してもよい。周波数振幅特性の代わりに、周波数パワー特性が用いられていてもよい。周波数変換で得られた周波数振幅特性をF(f)とする。
 平滑化部113が、周波数振幅特性F(f)を平滑化する(S12)。平滑化手法としては、ケプストラム分析、単純移動平均、Savitzky-Golayフィルタ、平滑化スプライン、などを用いることができる。平滑化された周波数振幅特性を平滑化特性SF(f)とする。
 特徴量抽出部114が、平滑化特性SF(f)のピーク及びノッチを検出し、特徴量を抽出する(S13)。具体的には、平滑化特性SF(f)の傾きに基づいて、ピーク及びノッチを検出する。平滑化特性SF(f)の極大値がピークとなり、極小値がノッチとなる。図6は、平滑化特性を模式的に示す図である。ここでは、平滑化特性に3つのピークと2つのノッチが含まれている例を示す。
 最も低い周波数のピークを1番目のピークP[1]とし、最も低い周波数のノッチを1番目のノッチN[1]とする。同様に周波数が低い側から順番に、2番目のピークP[2]、2番目のノッチN[2]、3番目のピークP[3]とする。ピーク、及びノッチをP[l]、N[l]として一般化する。lは1以上の整数であり、ピーク及びノッチの番号を示す。
 特徴量抽出部114は、ピーク周波数、ピーク周波数での振幅(利得)、ノッチ周波数、ノッチ周波数での振幅(利得)を特徴量として抽出する。なお、ピーク周波数での振幅、及びノッチ周波数での振幅の値を、それぞれピーク値、及びノッチ値とする。P[1]~P[3]のピーク周波数をそれぞれfp1~fp3とし、ピーク値をgp1~gp3とする。N[1]~N[2]のノッチ周波数をそれぞれnp1~np2とし、ノッチ値をnp1~np2とする。ピーク値、及びノッチ値は、平滑前の周波数振幅特性F(f)の振幅値とするが、平滑化特性SF(f)の振幅値であってもよい。もちろん、周波数パワー特性の場合は、ピーク値、及びノッチ値はパワー値となる。
 ピークP[1]は(gp1,fp1)の2次元ベクトルで示される。同様に、ピークP[2]、P[3]はそれぞれ(gp2,fp2)、(gp3,fp3)の2次元ベクトルで示される。ノッチN[1]、N[2]はそれぞれ(gn1,fn1)、(gn2,fn2)の2次元ベクトルで示される。
 全てのピーク及びノッチの周波数、及び振幅値を特徴量として抽出する。特徴量抽出部114が抽出した特徴量は、特徴ベクトルとして示される。特徴ベクトルは、ピーク数とノッチ数との和に応じた次元となっている。具体的には、ピーク数をl_max、ノッチ数をm_maxとすると、特徴ベクトルの次元数は、[2×(l_max+m_max)]となる。例えば、ピークの数が3つ、ノッチの数が2つの場合、特徴量のベクトルは、(fp1、gp1、fn1、gn1、fp2、gp2、fn2、gn2、fp3、gp3)の10次元となる。このように、特徴量抽出部114は、外耳道伝達特性の特徴量を抽出する。特徴量抽出部114は、左右の外耳道伝達特性の特徴量をそれぞれ抽出する。
 なお、特徴量抽出部114がピーク及びノッチを求める帯域は全周波数帯域であってもよく、一部の周波数帯域であってもよい。例えば、平滑化特性において、4kHz以上の周波数帯域におけるピークとノッチを求めてもよい。
 送信部121は、特徴量抽出部114が抽出した特徴量をユーザデータとして、サーバ装置300に送信する。ユーザデータは外耳道伝達特性に関するデータである。具体的には、ユーザデータは、ユーザの外耳道伝達特性の特徴量を含んでいる。ユーザの外耳道伝達特性の特徴量をユーザ特徴量hpL_U、hpR_Uとする。ユーザ特徴量hpL_Uはユーザの左耳の外耳道伝達特性の特徴量であり、ユーザ特徴量hpR_Uはユーザの左耳の外耳道伝達特性の特徴量である。
 逆フィルタ算出部115は外耳道伝達特性f(t)に基づいて、逆フィルタを算出する。例えば、逆フィルタ算出部115は、外耳道伝達特性f(t)の周波数振幅特性F(f)や周波数位相特性を補正する。逆フィルタ算出部115は、逆離散フーリエ変換により、周波数特性と位相特性とを用いて時間信号を算出する。逆フィルタ算出部115は、時間信号を所定のフィルタ長で切り出すことで、逆フィルタを算出する。頭外定位処理装置100は、逆フィルタをメモリなどに格納する。
 上記のように、逆フィルタはヘッドホン特性(ヘッドホンの再生ユニットとマイク間の特性)をキャンセルするフィルタである。頭外定位処理装置100は、逆フィルタ算出部115が算出した左右の逆フィルタを記憶する。なお、逆フィルタの算出方法については、公知の手法を用いることができるため、詳細な説明を省略する。逆フィルタ算出部115は、左耳の外耳道伝達特性に基づいて、左の逆フィルタLinvを生成する。逆フィルタ算出部115は、右耳の外耳道伝達特性に基づいて、右の逆フィルタRinvを生成する。
 なお、頭外定位処理装置100が上記の処理を行っているが、一部又は全ての処理は、サーバ装置300で行われていてもよい。例えば、頭外定位処理装置100が測定した外耳道伝達特性f(t)をサーバ装置300に送信して、サーバ装置300が、周波数変換、平滑化、特徴量抽出の処理を行ってもよい。周波数変換、平滑化、特徴量抽出の処理は、サーバ装置300及び頭外定位処理装置100のいずれで行われてもよい。さらには、頭外定位処理装置100又はサーバ装置300以外の装置が一部の処理を行ってもよい。
 サーバ装置300について説明する。サーバ装置300は、受信部301と、データ抽出部302と、データ格納部303と、比較部304と、選択部305と、送信部306とを備えている。
 受信部301は、頭外定位処理装置100から送信されたユーザデータを受信する。ユーザデータはユーザ特徴量hpL_U、hpR_Uを含んでいる。データ抽出部302は、ユーザ特徴量に基づいて、データ格納部303に格納されているプリセットデータの一部を抽出する。
 データ格納部303は、事前測定で測定された複数の被測定者に関するデータをプリセットデータとして格納するデータベースである。データベースは、複数の記憶装置に分散されていてもよい。図7を参照して、データ格納部303に格納されているデータについて、説明する。図7は、データ格納部303に格納されているデータを示す表である。
 データ格納部303は、被測定者の左右の耳毎にプリセットデータを格納している。具体的には、データ格納部303は、被測定者ID、耳の左右、特徴量、空間音響伝達特性1、及び空間音響伝達特性2が1行に並んだテーブル形式となっている。なお、図7に示すデータ形式は一例であり、テーブル形式ではなく、各パラメータのオブジェクトをタグ等で関連付けて保持するデータ形式等を採用してもよい。
 データ格納部303には、1人の被測定者Aに対して、2つのデータセットが格納されている。すなわち、データ格納部303は、被測定者Aの左耳に関するデータセットと、被測定者Aの右耳に関するデータセットが格納されている。
 1つのデータセットには、被測定者ID、耳の左右、特徴量、空間音響伝達特性1、及び空間音響伝達特性2が含まれている。特徴量は、図3に示す測定装置200による第2の事前測定に基づくデータである。特徴量は、外耳孔よりも前にある第1の位置からマイク2L、2Rまでの外耳道伝達特性から抽出されている。具体的には、被測定者1の外耳道伝達特性に対して、図5の処理を施すことで、特徴量が抽出される。ユーザの特徴量と、被測定者の特徴量は、それぞれの外耳道伝達特性に対して同様の処理を施すことで、抽出される。
 被測定者Aの左耳の特徴量は、特徴量hpL_Aと示し、被測定者Aの右耳の特徴量は、特徴量hpR_Aと示している。被測定者Bの左耳の特徴量は、特徴量hpL_Bと示し、被測定者Bの右耳の特徴量は、特徴量hpR_Bと示している。
 空間音響伝達特性1、及び空間音響伝達特性2は、図2に示す測定装置200による第1の事前測定に基づくデータである。被測定者Aの左耳の場合、空間音響伝達特性1はHls_Aとなり、空間音響伝達特性2は、Hro_Aとなる。被測定者Aの右耳の場合、空間音響伝達特性1はHrs_Aとなり、空間音響伝達特性2は、Hlo_Aとなる。このように、1つの耳に関する2つの空間音響伝達特性がペアとなっている。被測定者Bの左耳については、Hls_BとHro_Bがペアとなり、被測定者Bの右耳については、Hrs_BとHlo_Bがペアとなっている。空間音響伝達特性1、及び空間音響伝達特性2は、フィルタ長で切り出された後のデータでもよく、フィルタ長で切り出される前のデータでもよい。
 被測定者Aの左耳については、特徴量hpL_Aと、空間音響伝達特性Hls_Aと、空間音響伝達特性Hro_Aとが対応付けられて、1つのデータセットとなっている。同様に、被測定者Aの右耳については、特徴量hpR_Aと、空間音響伝達特性Hrs_Aと、空間音響伝達特性Hlo_Aとが対応付けられて、1つのデータセットとなっている。同様に、被測定者Bの左耳については、特徴量hpL_Bと、空間音響伝達特性Hls_Bと、空間音響伝達特性Hro_Bとが対応付けられて、1つのデータセットとなっている。同様に、被測定者Bの右耳については、特徴量hpR_Bと、空間音響伝達特性Hrs_Bと、空間音響伝達特性Hlo_Bとが対応付けて、1つのデータセットとなっている。
 なお、空間音響伝達特性1、2のペアを第1のプリセットデータとする。すなわち、1つのデータセットを構成する空間音響伝達特性1、及び空間音響伝達特性2を第1のプリセットデータとする。1つのデータセットを構成する特徴量を第2のプリセットデータとする。1つのデータセットは、第1のプリセットデータ、及び第2のプリセットデータを含んでいる。そして、データ格納部303は、第1のプリセットデータと第2のプリセットデータとを被測定者の左右の耳毎に対応付けて記憶している。
 ここで、n(nは2以上の整数)人の被測定者1に対して、第1及び第2の事前測定が予め行われているとする。この場合、データ格納部303には、両耳分である2n個のデータセットが格納されている。
 図8を用いて、第2のプリセットデータを詳細に説明する。図8は、第2のプリセットデータを示す表である。被測定者1の左右の耳毎に、特徴量が含まれている。特徴量は、上記の通り、ピーク値、ピーク周波数、ノッチ値、及びノッチ周波数を含んでいる。GP1、FP1は、1番目のピークのピーク値、及びピーク周波数である。GN1、FG1は、1番目のノッチのノッチ値、及びノッチ周波数である。なお、図8では、2番目以降のピーク、及びノッチに関するデータを省略している。さらに、第2のプリセットデータは、平滑化特性のピーク数とノッチ数を含んでいてもよい。
 また、被測定者1毎にピーク数またはノッチ数が異なる。また、同じ被測定者1であっても、左右の耳で、ピーク数またはノッチ数が異なることがある。よって、データセット毎に、特徴量として含まれるデータ数が異なる。なお、ピーク数とノッチ数は、全周波数帯域におけるピークとノッチの数でもよく、一部の周波数帯域における数でもよい。例えば、所定の周波数以上の帯域におけるピークとノッチを特徴量としてもよい。所定の周波数は、例えば、2kHz~4kHzの範囲にある周波数である。
 データ抽出部302は、ピーク数及びノッチ数が一致する第2のプリセットデータを探索する。そして、データ抽出部302は、ピーク数及びノッチ数が一致する第2のプリセットデータを抽出する。データ抽出部302は、データ格納部303に格納されているデータセットの中から、ピーク数及びノッチ数が一致する第2のプリセットデータを抽出する。
 例えば、図6では、ピーク数が3で、ノッチ数が2である。よって、図8に示すテーブルにおいて、ID_Aの被測定者の左耳と、ID_Bの被測定者の右耳で、ピーク数とノッチ数が一致する。データ抽出部302は、ID_Aの被測定者1の左耳の特徴量hpL_A、ID_Bの被測定者1の右耳の特徴量hpR_Bを抽出する。データ抽出部302が抽出したデータを抽出データとする。
 比較部304は、抽出データ(例えば、特徴量hpL_A、特徴量hpL_A)と、ユーザデータ(例えば、ユーザ特徴量hpL_U)とを比較して、類似度を求める。比較部304は、抽出データの中で、ユーザデータに最も類似する第2のプリセットデータを求める。比較部304は、比較結果を選択部305に出力する。選択部305は、ユーザデータに最も類似する第2のプリセットデータに対応する第1のプリセットデータを選択する。第1のプリセットデータは、上記の通り、空間音響伝達特性1、及び空間音響伝達特性2を含んでいる。
 例えば、ユーザ特徴量hpL_Uに最も類似する特徴量がID_Aの被測定者1の左耳の特徴量hpL_Aであるとする。選択部305は、特徴量hpL_Aに対応する空間音響伝達特性Hls_A、Hro_Aを選択する。選択部305で選択された特性を選択特性とし、選択特性のデータを選択データとする。選択データは1つのデータセットに含まれる第1のプリセットデータである。選択データは空間音響伝達特性のペアを含んでいる。
 データ抽出部302、比較部304、及び選択部305は、左右のユーザ特徴量に対して、それぞれ同様の処理を行う。ユーザの左耳のユーザ特徴量hpL_Uについて、空間音響伝達特性のペア(例えば、Hls_A,Hro_A)が選択データとなる。同様に、ユーザの右耳のユーザ特徴量hpR_Uについて、空間音響伝達特性のペアが選択データとなる。選択部305は、ユーザのそれぞれの耳に対して、選択データを選択する。
 そして、送信部306は、選択データ(第1のプリセットデータ)を頭外定位処理装置100に送信する。送信部306は、選択された第1のプリセットデータに対して、通信規格に応じた処理(例えば、変調処理)を行って、送信する。送信部306は、ユーザの左右の耳に関して、それぞれ空間音響伝達特性のペアを選択データとして送信する。
 このように、データ抽出部302は、ピーク及びノッチに基づいて、データ格納部303に格納されたデータセットの中から、一部のデータセットを抽出する。比較部304は、抽出されたデータセットの第2のプリセットデータをユーザデータと比較する。そして、選択部305は、第2のプリセットデータとユーザデータとの比較結果に基づいて、ユーザに適した第1のプリセットデータを選択する。
 受信部122は、送信部306から送信された選択データ(第1のプリセットデータ)を受信する。受信部122は、受信した第1のプリセットデータに対して、通信規格に応じた処理(例えば、復調処理)を行う。受信部122は、左耳に関する第1のプリセットデータとして、空間音響伝達特性のペアを受信する。受信部122は、右耳に関する第1のプリセットデータとして、空間音響伝達特性のペアを受信する。
 そして、フィルタ設定部116は、第1のプリセットデータに基づいて、空間音響フィルタを設定する。例えば、空間音響伝達特性のペアに含まれる空間音響伝達特性Hls_AがユーザUの空間音響伝達特性Hlsとなり、空間音響伝達特性Hro_AがユーザUの空間音響伝達特性Hroとなる。同様に、選択データである第1のプリセットデータに含まれる空間音響伝達特性のペアが、ユーザUの空間音響伝達特性Hlo,Hrsとなる。ユーザUの空間音響伝達特性Hlo、及びHrsは、図7の空間音響伝達特性1のデータから選ばれる。ユーザUの空間音響伝達特性Hlo及びHroは、図7の空間音響伝達特性2のデータから選ばれる。
 なお、第1のプリセットデータがフィルタ長で切り出した後のデータである場合、フィルタ設定部116が第1のプリセットデータをそのまま、空間音響フィルタとして設定する。例えば、空間音響伝達特性Hls_AがユーザUの空間音響伝達特性Hlsとなる。第1のプリセットデータがフィルタ長で切り出される前のデータである場合、フィルタ設定部116が空間音響伝達特性をフィルタ長に切り出す処理を行う。
 頭外定位処理装置100は、頭外定位フィルタをメモリなどに格納する。フィルタ設定部116は、空間音響フィルタを図1の畳み込み演算部11、12、21、22に設定する。また、フィルタ設定部116は、逆フィルタ算出部115が算出した逆フィルタをフィルタ部41,フィルタ部42に設定する。頭外定位処理装置100は、図1に示したように、4つの空間音響伝達特性Hls、Hlo、Hro、Hrsに応じた空間音響フィルタと、逆フィルタとを用いて、演算処理を行う。頭外定位処理装置100は、4つの空間音響フィルタと、2つの逆フィルタとを用いて、ステレオ入力信号に上記の畳み込み演算処理等を行う。
 このように、データ格納部303が、被測定者1毎に第1のプリセットデータと、第2のプリセットデータを対応付けて格納している。第1のプリセットデータは被測定者1の空間音響伝達特性に関するデータである。第2のプリセットデータは、被測定者1の外耳道伝達特性に関するデータである。具体的には、第2のプリセットデータは、被測定者1の外耳道伝達特性の特徴量を含んでいる。
 比較部304はユーザデータを、第2のプリセットデータと比較する。ユーザデータは、ユーザ測定で得られた外耳道伝達特性に関するユーザ特徴量を含んでいる。比較部304は、特徴量の類似度を求めている。比較部304は、特徴量の類似度を求めている。そして、比較部304は、ユーザの外耳道伝達特性と類似する被測定者1と、耳の左右とを決定する。
 選択部305は、決定された被測定者と耳の左右とに対応する第1のプリセットデータを読み出す。そして、送信部306は、選択された第1のプリセットデータを頭外定位処理装置100に送信している。ユーザ端末である頭外定位処理装置100は、第1のプリセットデータに基づく空間音響フィルタと、測定データに基づく逆フィルタとを用いて、頭外定位処理を行う。
 このようにすることで、ユーザUが空間音響伝達特性を測定しなくても、適切なフィルタを決定することができる。よって、ユーザがリスニングルームなどに行く必要や、ユーザの家にスピーカなどを設置する必要がなくなる。ユーザ測定はヘッドホン装着状態で実施される。すなわち、ユーザUがヘッドホンとマイクとを装着していれば、ユーザ個人の外耳道伝達特性を測定することができる。よって、簡便な方法で、定位効果の高い頭外定位を実現できる。なお、ユーザ測定と、頭外定位受聴に用いられるヘッドホン43は同じタイプのものであることが好ましい。
 さらに、ユーザデータと第2のプリセットデータが周波数振幅特性のピーク及びノッチに基づく特徴量となっている。これにより、処理するデータ量を削減することができる。特に、ピーク周波数、ピーク値、ノッチ周波数、及びノッチ値が特徴量として抽出されている。これにより、データ格納部303が、多数の被測定者のプリセットデータを格納している場合でも、少ないデータ量で適切にマッチングを行うことができる。
 また、本実施形態にかかる方法では、多数のプリセット特性を聴く聴感テストを行う必要がない。よって、ユーザ負担を軽減することができ、利便性を向上することができる。そして、被測定者とユーザの特徴量を比較することで、特性が似ている被測定者を選ぶことができる。そして選ばれた被測定者の耳の第1のプリセットデータから音響伝達フィルタが生成されるため、高い頭外定位効果が期待できる。
 次に、図9を用いて、類似度を求める処理について説明する。図9は類似度を求める処理の一例を示すフローチャートである。本実施の形態では、比較部304が、ベクトル間距離または相関係数を用いて、類似度を算出している。なお、比較部304は、ベクトル間距離と相関係数の双方を用いて類似度を算出してもよい。
 データ抽出部302が、評価範囲を算出する(S21)。評価範囲は、ピーク及びノッチを抽出する周波数帯域である。ここでは、4kHz以上の周波数帯域を評価範囲としている。4kHz以上の周波数帯域に、個人の特性が現れやすいからである。なお、評価範囲の下限値は4kHzに限られるものではなく、例えば2kHzであってもよい。評価範囲の上限値は、周波数変換により得られた周波数特性の最大周波数とすることができる。なお、予め評価範囲内のピーク及びノッチのみが抽出されている場合、S21は省略することができる。
 データ抽出部302が、データ格納部303に格納されたプリセットデータの中からデータを抽出する(S22)。すなわち、データ抽出部302が、評価範囲においてピーク数とノッチ数が一致する第2のプリセットデータを抽出する。
 次に、比較部304が、ユーザデータ、及び第2のプリセットデータを正規化及び尺度変換する。例えば、ユークリッド距離を求める場合、周波数と振幅値で評価範囲の値(単位)が異なる。このため、評価対象となる周波数帯域の最小周波数が0、最大周波数が1となるように、比較部304がピーク周波数とノッチ周波数を正規化する。振幅値では、評価対象の振幅値(ピーク値)の最大値が1となり、振幅値(ノッチ値)の最小値が0となるように、比較部304がピーク値、及びノッチ値を正規化する。例えば、図6に示す例において、横軸(周波数軸)上において、fp1~fp3の範囲が0~1となる。同様に、縦軸(振幅軸)上において、gn1~gp3の範囲が0~1となる。
 尺度変換は、対数軸において、離散的なスペクトルデータ(周波数振幅特性)が等間隔になるように包絡線データの尺度を変化する。周波数変換部で求められた周波数振幅特性は、周波数的に等間隔となっている。つまり、周波数振幅特性は、周波数線形軸において等間隔となっているため、周波数対数軸では非等間隔になっている。このため、周波数対数軸において周波数振幅特性のデータが等間隔になるように、補間処理を行う。
 周波数振幅特性において、対数軸上では、低周波数域になればなるほど隣接するデータ間隔は粗く、高周波数域になればなるほど隣接するデータ間隔は密になっている。そのため、比較部304は、データ間隔が粗い低周波数帯域のデータを補間する。具体的には、比較部304は、3次元スプライン補間等の補間処理を行うことで、対数軸において等間隔に配置された離散的な包絡線データを求める。尺度変換が行われた包絡線データを、尺度変換データとする。尺度変換データは、周波数と振幅値またはパワー値とが対応付けられているスペクトルとなる。
 対数尺度に変換する理由について説明する。一般的に人間の感覚量は対数に変換されていると言われている。そのため、聴こえる音の周波数も対数軸で考えることが重要になる。尺度変換することで、上記の感覚量においてデータが等間隔となるため、全ての周波数帯域でデータを等価に扱えるようになる。この結果、数学的な演算、周波数帯域の分割や重み付けが容易になり、安定した結果を得ることが可能になる。なお、比較部304は、対数尺度に限らず、人間の聴覚に近い尺度(聴覚尺度と称する)へ包絡線データを変換すればよい。聴覚尺度としては、対数尺度(Logスケール)、メル(mel)尺度、バーク(Bark)尺度、ERB(Equivalent Rectangular Bandwidth)尺度等で尺度変換をしてもよい。比較部304は、データ補間により、包絡線データを聴覚尺度で尺度変換する。例えば、比較部304は、聴覚尺度においてデータ間隔が粗い低周波数帯域のデータを補間することで、低周波数帯域のデータを密にする。聴覚尺度で等間隔なデータは、線形尺度(リニアスケール)では低周波数帯域が密、高周波数帯域が粗なデータとなる。このようにすることで、比較部304は、聴覚尺度で等間隔な尺度変換データを生成することができる。もちろん、尺度変換データは、聴覚尺度において、完全に等間隔なデータでなくてもよい。
 S23、及びS25において、正規化、及び尺度変換は同じ処理でなくてもよい。例えば、距離を求める場合の尺度と、相関係数を求めるための尺度は異なっていてもよい。さらに、正規化、及び尺度変換の一方のみを行ってもよい。あるいは、正規化、及び尺度変換を省略してもよい。正規化と尺度変換の処理順序は、どちらを先に行ってもよく任意である。
 次に、比較部304は、特徴ベクトル間の距離を算出する(S24)。特徴ベクトル間の距離を求めるための処理について図10を用いて説明する。図10は、距離を求める処理を示すフローチャートである。ここでは、比較部304が、ユーザデータと第2のプリセットデータとについて、特徴ベクトルのユークリッド距離を求めている。まず、初期化のため、l=0、m=0、q=0とする(S31)。qはユークリッド距離を示す。
 比較部304は、l=l_maxであるか否かを判定する(S32)。l_maxは、ピーク数を示す整数である。l=l_maxではないと判定された場合(S32のNO)、q+=||AP[l]-BP[l]||とする(S33)。AP[l]は、ユーザデータにおけるl番目のピークを示す二次元ベクトルである。BP[l]は、第2のプリセットデータにおけるl番目のピークを示す二次元ベクトルである。比較部304は、l番目のピーク同士のピーク間のユークリッド距離を求める。
 比較部304は、lをインクリメントする(S34)。そして、l=l_maxとなるまで、S32~S34の処理を繰り返す。これにより、全てのピーク間の距離が求められる。つまり、qはピーク間の距離をl_max回だけ加算した値となる。l_max=3の場合、1番目のピーク同士のピーク間距離(第1のピーク間距離)と、2番目のピーク同士のピーク間距離(第2のピーク間距離)と、3番目のピーク同士のピーク間距離(第3のピーク間距離)が求められる。S33において、qは、第1~第3のピーク間距離の総和となる。
 l=l_maxと判定された場合(S32のYES)、比較部304は、m=m_maxであるか否かを判定する(S35)。m_maxは、ノッチ数を示す整数である。m=m_maxではない場合(S35のNO)、q+=||AN[m]-BN[m]||とする(S36)。AP[m]は、ユーザデータにおけるm番目のノッチを示す二次元ベクトルである。BP[m]は、第2のプリセットデータにおけるm番目のノッチを示す二次元ベクトルである。比較部304は、m番目のノッチ同士のノッチ間のユークリッド距離を求める。なお、上記の処理において、AP[l],AN[l]、及びBP[l]、BN[l]は、S23で正規化及び尺度変換が行われたデータとなっている。
 比較部304は、mをインクリメントする(S37)。そして、m=m_maxとなるまで、S35~S37の処理を繰り返す。これにより、全てのノッチ間の距離が求められる。つまり、qはl個のピーク間の距離と、m個のノッチ間の距離との総和となる。l_max=3、m_max=2の場合、qは、第1~第3のピーク間距離と、第1~第2のピーク間距離との総和となる。
 そして、比較部304はq=q/(l_max+m_max)とする。これにより、qが、(l_max+m_max)個の距離の平均値となる。このようにして、特徴ベクトル間の距離を求めることができる。上記のように、ピーク数及びノッチ数が一致する第2のプリセットデータが抽出されているため、適切に特徴ベクトル間の距離を求めることができる。
 図9の説明に戻る。比較部304は、相関係数を算出する(S26)。図11を用いて、相関係数を求めるための処理について説明する。なお、以下の処理においてもAP[l]、AN[m]、BP[l]、BN[m]は、S25において、正規化及び尺度変換されたデータとなっている。
 比較部304は、特徴量のデータを補間する(S41)。図12に特徴量のデータを線形補間する例を示す。ここでは、ユーザデータが3つのピークAP[1]~AP[3]と2つのノッチAN[1]~AN[2]を有している。また、第2のプリセットデータが3つのピークBP[1]~BP[3]と2つのノッチBN[1]~BN[2]を有している。比較部304は、ピークとノッチとの間の振幅値を線形補間により算出する。もちろん、線形補間に限らず、スプライン補間などを用いてもよい。ユーザデータを補間したデータを補間データlinAF(f)とし、第2のプリセットデータを補間したデータを補間データlinBF(f)とする。
 補間データを生成する理由について説明する。相関を見る2つのデータのピークとノッチの数が少ない場合がある。その場合、十分に2つの波形の類似性を評価することが困難となる。よって、ピークとノッチとの間のデータ(振幅値)を補間している。これにより、外耳道伝達特性の相関を精度良く求めることができる。
 次に、比較部304が、補間データの評価範囲を算出する(S42)。例えば、補間後、評価する2つのデータの最大周波数が異なる場合がある。この場合は2つの最大周波数の小さい周波数までを周波数軸の評価範囲の最大値とする。図11に示す例においては、BP[3]のピーク周波数が、AP[3]のピーク周波数よりも大きい。よって、AP[3]のピーク周波数を最大周波数として、補間データlinAF(f)、linBF(f)を生成する。つまり、評価範囲の最大値は、AP[l_max]、AN[m_max]、BP[l_max]、BN[m_max]の周波数に基づいて設定される。
 AP[l_max]のピーク周波数がAN[m_max]のノッチ周波数より大きく、かつ、BP[l_max]のピーク周波数が、BN[m_max]のノッチ周波数よりも大きい場合、AP[l_max]のピーク周波数とBP[l_max]のピーク周波数の内、小さい方のピーク周波数を補間データの最大周波数とする。AP[l_max]のピーク周波数がAN[m_max]のノッチ周波数より小さく、かつ、BP[l_max]のピーク周波数が、BN[m_max]のノッチ周波数よりも小さい場合、AN[m_max]のノッチ周波数とBN[m_max]のノッチ周波数の内、小さい方のノッチ周波数を補間データの最大周波数とする。
 周波数軸の評価範囲の最小値は個人特性が現れやすい4kHzとしてもよい。耳介特性の測定方法によって、個人特性が現れやすい周波数領域が異なることがあるため、周波数軸の評価範囲の最小値は4kHzである必要はない。S21において説明したように、最小値は2kHz~4kHzの範囲とすることができる。S42で算出された評価範囲と、S21で算出された評価範囲は異なっていてもよく、同じであってもよい。
 そして、比較部304が相関係数を算出する(S43)。具体的には、比較部304は、評価範囲において、補間データlinAF(f)と補間データlinBF(f)の相関係数rを算出する。
 図9の説明に戻る。比較部304は、ユークリッド距離qと相関係数rとに基づいて類似度を算出する(S27)。ユークリッド距離qは値が小さいほど距離が近いこと、つまり特性が似ていることを示す。相関係数rは-1~+1の間で値を取り、+1に近いほど似ていることを示す。よって、(1-r)の値が小さいほど、特性が類似していることとなる。比較部304は、類似度をq+(1-r)とする。あるいは、比較部304は、類似度をq*(1-r)としてもよい。さらには、比較部304は、qと(1-r)に重み付けを行ってもよい。例えば、比較部304は、重み付けのための係数をq及び(1-r)の少なくとも一方に乗じてもよい。
 比較部304は、S22で抽出された全てのデータに対して、ユーザ特性との類似度を算出する。つまり、比較部304は、ピーク数とノッチ数が等しい第2のプリセットデータのそれぞれに対して、ユーザデータとの類似度を算出する。そして、選択部305が、類似度が最も高い第2のプリセットデータに対応する第1のプリセットデータを選択する(S28)。本実施の形態では、相関係数と距離とに基づいて類似度を求めているため、ユーザに特性が似ている被測定者1を選ぶことができる。そして選ばれた被測定者の耳の第1のプリセットデータを選択部305が選択するため、高い頭外定位効果が期待できる。
 なお、上記の説明では、相関係数と距離とに基づいて、類似度が求められているが、相関係数と距離のいずれか一方のみに基づいて、類似度が求められていてもよい。さらに、本実施の形態では、ピーク数とノッチ数とが一致する第2のプリセットデータのみを抽出しているため、特徴ベクトルの次元数を揃えることができる。これにより、ベクトル間距離を適切に算出することができ、より適切なマッチングを行うことができる。
 また、上記の説明では、補間データlinAF(f)と補間データlinBF(f)の相関係数rを求めたが、比較部304は周波数振幅特性F(f)と補間データlinBF(f)との相関係数を求めてもよい。あるいは、比較部304は平滑化特性SF(f)と補間データlinBF(f)との相関係数を求めてもよい。この場合、頭外定位処理装置100が外耳道伝達特性f(t)、周波数振幅特性F(f)又は平滑化特性SF(f)をサーバ装置300に送信すればよい。また、周波数振幅特性F(f)又は平滑化特性SF(f)を求めるための処理の一部又は全部が、サーバ装置300で行われてもよい。
変形例
 変形例では、第2のプリセットデータをクラスタリングしている。図13は、ピーク数とノッチ数とに基づいてクラスタリングを行った例を説明するためのテーブルである。実施の形態1では、特徴ベクトル間の距離を求めるため、ピーク数及びノッチ数がユーザ特徴量と一致する第2のプリセットデータが抽出されている。したがって、ピーク数及びノッチ数に応じて、予め第2のプリセットデータをクラスタリングしておくことで、データ抽出の処理を迅速に行うことができる。例えば、ピーク数が3、ノッチ数が2の場合、データ抽出部302が、クラスタ330に含まれる第2のプリセットデータを抽出する。
 もちろん、ピーク数、及びノッチ数以外を用いて、第2のプリセットデータをクラスタ(グループ)に分けてもよい。例えば、特徴ベクトルに応じて、クラスタリングを行ってもよい。具体的には、k平均法等を用いて、クラスタリングを行うことができる。また、クラスタリングは、階層型クラスタリングであってもよく、非階層型クラスタリングであってもよい。また、各クラスタに十分な数の第2のプリセットデータ含まれるようにクラスタリングを行うことが好ましい。
 データ抽出部302は、ユーザ特徴量が属するクラスタの第2のプリセットデータを抽出すればよい。データ格納部303では、複数の前記第2のプリセットデータが2以上のクラスタに分類されていればよい。データ抽出部302は、ユーザ特徴量が属するクラスタに含まれる第2のプリセットデータを抽出する。
 頭外定位処理装置100、及び測定処理装置201が、測定結果に応じて、フィルタを適切に生成するための演算処理を行っている。頭外定位処理装置100、及び測定処理装置201は、パーソナルコンピュータ(PC)、タブレット端末、スマートホン等であり、メモリ、及びプロセッサを備えている。メモリは、処理プログラムや各種パラメータや測定データなどを記憶している。プロセッサは、メモリに格納された処理プログラムを実行する。プロセッサが処理プログラムを実行することで、各処理が実行される。プロセッサは、例えば、CPU(Central Processing Unit)、FPGA(Field-Programmable Gate Array)、DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit)、又は、GPU(Graphics Processing Unit)等であってもよい。
 なお、図1,図2のブロック図のうち、一部のブロックを省略することが可能である。例えば、図2において、送信部121,送信部306、受信部122、及び受信部301は、他の装置に設けられていてもよい。さらに、複数の装置が分散して処理を行ってもよい。図5,図9のフローチャートのうち、一部,又は全部の処理については省略することが可能である。例えば、S23~S27は、他の比較処理に置き換えることができる。つまり、S23~S27以外の処理により、比較部304がユーザ特徴量と、第2のプリセットデータとを比較してもよい。
 上記処理のうちの一部又は全部は、コンピュータプログラムによって実行されてもよい。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記実施の形態に限られたものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
 この出願は、2019年9月25日に出願された日本出願特願2019-174232を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本開示は、頭外定位処理のフィルタ生成に適用可能である。
 U ユーザ
 1 被測定者
 2L 左マイク
 2R 右マイク
 5L 左スピーカ
 5R 右スピーカ
 9L 左耳
 9R 右耳
 10 頭外定位処理部
 11 畳み込み演算部
 12 畳み込み演算部
 21 畳み込み演算部
 22 畳み込み演算部
 24 加算器
 25 加算器
 41 フィルタ部
 42 フィルタ部
 43 ヘッドホン
 100 頭外定位処理装置
 111 特性取得部
 112 周波数変換部
 113 平滑化部
 114 特徴量抽出部
 115 逆フィルタ算出部
 116 フィルタ設定部
 121 送信部
 122 受信部
 200 測定装置
 201 測定処理装置
 300 サーバ装置
 301 受信部
 302 データ抽出部
 303 データ格納部
 304 比較部
 305 選択部
 306 送信部

Claims (11)

  1.  ユーザに装着され、前記ユーザの耳に向けて音を出力する出力ユニットと、
     前記ユーザの耳に装着され、前記出力ユニットから出力された音を収音するマイクユニットと、
     前記出力ユニットに対して測定信号を出力するとともに、前記マイクユニットから出力された収音信号を測定する測定処理装置と、
     前記測定処理装置と通信可能なサーバ装置と、を備えた頭外定位フィルタ決定システムであって、
     前記サーバ装置は、
     音源から被測定者の耳までの空間音響伝達特性に関する第1のプリセットデータと、前記被測定者の耳の外耳道伝達特性の特徴量に関する第2のプリセットデータと、を対応付けて記憶するデータ格納部であって、複数の被測定者に対して取得された複数の前記第1及び第2のプリセットデータを記憶するデータ格納部を備え、
     前記頭外定位フィルタ決定システムは、
     前記マイクユニットで収音された収音信号を周波数変換して、周波数特性を求める周波数変換部と、
     前記周波数特性を平滑化する平滑化部と、
     平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出する特徴量抽出部と、
     前記ユーザ特徴量に基づいて、前記データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するデータ抽出部と、
     前記ユーザ特徴量と、抽出された前記第2のプリセットデータとを比較する比較部と、
     比較結果に基づいて、複数の前記第1のプリセットデータの中から第1のプリセットデータを選択する選択部と、を備えた頭外定位フィルタ決定システム。
  2.  前記データ抽出部が、前記ピーク及び前記ノッチの数を用いて、前記第2のプリセットデータを抽出している請求項1に記載の頭外定位フィルタ決定システム。
  3.  前記データ抽出部が、所定の周波数帯域にある前記ピーク及びノッチの数がユーザデータと一致する前記第2のプリセットデータを抽出している請求項2に記載の頭外定位フィルタ決定システム。
  4.  前記特徴量が、
     所定の周波数帯域にある前記ピークのピーク周波数、及び前記ピーク周波数におけるピーク値を含み、かつ、前記所定の周波数帯域にある前記ノッチのノッチ周波数、及び前記ノッチ周波数におけるノッチ値を含んでいる請求項1~3のいずれか1項に記載の頭外定位フィルタ決定システム。
  5.  前記比較部は、前記ユーザ特徴量を含む特徴ベクトルと、前記第2のプリセットデータの特徴量を含む特徴ベクトルとの距離に基づいて類似度を求めている請求項1~4のいずれか1項に記載の頭外定位フィルタ決定システム。
  6.  前記第2のプリセットデータにおいて、前記ピークと前記ノッチとの間を補間した補間特性と、ユーザ特性との相関に基づいて類似度を求めている請求項1~5のいずれか1項に記載の頭外定位フィルタ決定システム。
  7.  前記データ格納部では、複数の前記第2のプリセットデータが2以上のクラスタに分類されており、
     前記データ抽出部は、
     前記ユーザ特徴量が属するクラスタに含まれる第2のプリセットデータを抽出する請求項1~6のいずれか1項に記載の頭外定位フィルタ決定システム。
  8.  出力ユニットから出力された測定信号をマイクユニットで収音することで取得される収音信号を周波数変換して、周波数特性を求める周波数変換部と、
     前記周波数特性を平滑化する平滑化部と、
     平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出する特徴量抽出部と、
     前記ユーザ特徴量に類似する特徴量に対応付けられた空間音響伝達特性に基づいて、空間音響フィルタを設定する空間音響フィルタ設定部と、
     前記収音信号に基づいて、前記出力ユニットの特性をキャンセルする逆フィルタを算出する逆フィルタ算出部と、を備えた頭外定位処理装置。
  9.  音源から被測定者の耳までの空間音響伝達特性に関する第1のプリセットデータと、前記被測定者の耳の外耳道伝達特性の特徴量に関する第2のプリセットデータと、を対応付けて記憶するデータ格納部であって、複数の被測定者に対して取得された複数の前記第1及び第2のプリセットデータを記憶するデータ格納部と、
     ユーザ特徴量に基づいて、前記データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するデータ抽出部と、
     前記ユーザ特徴量と、前記第2のプリセットデータの特徴量とを比較する比較部と、
     比較結果に基づいて、複数の前記第1のプリセットデータの中から第1のプリセットデータを選択する選択部と、を備え、
     前記外耳道伝達特性の周波数特性が平滑化され、平滑化された前記周波数特性のピーク及びノッチに基づいて前記特徴量が抽出されている、頭外定位フィルタ決定装置。
  10.  ユーザに装着され、前記ユーザの耳に向けて音を出力する出力ユニットと、
     前記ユーザの耳に装着され、前記出力ユニットから出力された音を収音するマイクを有するマイクユニットと、を用いて、前記ユーザに対する頭外定位フィルタを決定する頭外定位フィルタ決定方法であって、
     前記マイクユニットで収音された収音信号を周波数変換して、周波数特性を求めるステップと、
     前記周波数特性を平滑化するステップと、
     平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出するステップと、
     前記ユーザ特徴量に基づいて、データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するステップと、
     前記ユーザ特徴量と、抽出された前記第2のプリセットデータとを比較するステップと、
     比較結果に基づいて、複数の第1のプリセットデータの中から第1のプリセットデータを選択するステップと、を含む頭外定位フィルタ決定方法。
  11.  ユーザに装着され、前記ユーザの耳に向けて音を出力する出力ユニットと、
     前記ユーザの耳に装着され、前記出力ユニットから出力された音を収音するマイクを有するマイクユニットと、を用いて、前記ユーザに対する頭外定位フィルタを決定する頭外定位フィルタ決定方法をコンピュータに実行させるためのプログラムであって、
     前記頭外定位フィルタ決定方法は、
     前記マイクユニットで収音された収音信号を周波数変換して、周波数特性を求めるステップと、
     前記周波数特性を平滑化するステップと、
     平滑化された前記周波数特性のピーク及びノッチを求め、前記ピーク及びノッチに基づいて前記周波数特性の特徴量をユーザ特徴量として抽出するステップと、
     前記ユーザ特徴量に基づいて、データ格納部に格納されている複数の第2のプリセットデータのうちの一部の第2のプリセットデータを抽出するステップと、
     前記ユーザ特徴量と、抽出された前記第2のプリセットデータとを比較するステップと、
     比較結果に基づいて、複数の第1のプリセットデータの中から第1のプリセットデータを選択するステップと、を含むプログラム。
PCT/JP2020/034157 2019-09-25 2020-09-09 頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム WO2021059984A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-174232 2019-09-25
JP2019174232A JP2021052315A (ja) 2019-09-25 2019-09-25 頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2021059984A1 true WO2021059984A1 (ja) 2021-04-01

Family

ID=75156520

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/034157 WO2021059984A1 (ja) 2019-09-25 2020-09-09 頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2021052315A (ja)
WO (1) WO2021059984A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024180610A1 (ja) * 2023-02-27 2024-09-06 日本電信電話株式会社 再生音定位制御装置、再生音定位制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017028525A (ja) * 2015-07-23 2017-02-02 株式会社Jvcケンウッド 頭外定位処理装置、頭外定位処理方法、及びプログラム
JP2018050222A (ja) * 2016-09-23 2018-03-29 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及びプログラム
JP2018191208A (ja) * 2017-05-10 2018-11-29 株式会社Jvcケンウッド 頭外定位フィルタ決定システム、頭外定位フィルタ決定装置、頭外定位決定方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017028525A (ja) * 2015-07-23 2017-02-02 株式会社Jvcケンウッド 頭外定位処理装置、頭外定位処理方法、及びプログラム
JP2018050222A (ja) * 2016-09-23 2018-03-29 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及びプログラム
JP2018191208A (ja) * 2017-05-10 2018-11-29 株式会社Jvcケンウッド 頭外定位フィルタ決定システム、頭外定位フィルタ決定装置、頭外定位決定方法、及びプログラム

Also Published As

Publication number Publication date
JP2021052315A (ja) 2021-04-01

Similar Documents

Publication Publication Date Title
JP6791001B2 (ja) 頭外定位フィルタ決定システム、頭外定位フィルタ決定装置、頭外定位決定方法、及びプログラム
US11115743B2 (en) Signal processing device, signal processing method, and program
WO2021059984A1 (ja) 頭外定位フィルタ決定システム、頭外定位処理装置、頭外定位フィルタ決定装置、頭外定位フィルタ決定方法、及びプログラム
JP7447719B2 (ja) 頭外定位フィルタ生成システム、処理装置、頭外定位フィルタ生成方法、及びプログラム
JP6753329B2 (ja) フィルタ生成装置、及びフィルタ生成方法
WO2018155164A1 (ja) フィルタ生成装置、フィルタ生成方法、及びプログラム
JP2022185840A (ja) 頭外定位処理装置、及び頭外定位処理方法
JP7435334B2 (ja) 頭外定位フィルタ決定システム、頭外定位フィルタ決定方法、及びプログラム
JP6805879B2 (ja) フィルタ生成装置、フィルタ生成方法、及びプログラム
JP7404736B2 (ja) 頭外定位フィルタ決定システム、頭外定位フィルタ決定方法、及びプログラム
WO2021059983A1 (ja) ヘッドホン、頭外定位フィルタ決定装置、頭外定位フィルタ決定システム、頭外定位フィルタ決定方法、及びプログラム
JP7395906B2 (ja) ヘッドホン、頭外定位フィルタ決定装置、及び頭外定位フィルタ決定方法
JP2024125727A (ja) クラスタリング装置、及びクラスタリング方法
WO2021131337A1 (ja) 処理装置、処理方法、フィルタ生成方法、再生方法、及びプログラム
US20230114777A1 (en) Filter generation device and filter generation method
US20210195327A1 (en) Processing device, processing method, reproduction method, and program
JP7115353B2 (ja) 処理装置、処理方法、再生方法、及びプログラム
JP2023024038A (ja) 処理装置、及び処理方法
CN115938376A (zh) 处理装置和处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20867831

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20867831

Country of ref document: EP

Kind code of ref document: A1