WO2004103023A1 - 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法 - Google Patents

仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法 Download PDF

Info

Publication number
WO2004103023A1
WO2004103023A1 PCT/JP1996/002772 JP9602772W WO2004103023A1 WO 2004103023 A1 WO2004103023 A1 WO 2004103023A1 JP 9602772 W JP9602772 W JP 9602772W WO 2004103023 A1 WO2004103023 A1 WO 2004103023A1
Authority
WO
WIPO (PCT)
Prior art keywords
transfer function
sound
image localization
acoustic
sound image
Prior art date
Application number
PCT/JP1996/002772
Other languages
English (en)
French (fr)
Inventor
Ikuichiro Kinoshita
Shigeaki Aoki
Original Assignee
Ikuichiro Kinoshita
Shigeaki Aoki
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ikuichiro Kinoshita, Shigeaki Aoki filed Critical Ikuichiro Kinoshita
Priority to US08/849,197 priority Critical patent/US5982903A/en
Publication of WO2004103023A1 publication Critical patent/WO2004103023A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to a method for creating an acoustic transfer function table used for sound image localization control, a storage medium storing the table, and an acoustic signal editing method using the table.
  • CDs that can enjoy music with good sound quality have been popular for a long time.
  • sound information from the sound source is provided without processing and is not reproduced from a headphone or speech.
  • sound processing such as sound volume adjustment, mixing, and reverberation has been performed before being provided to the listener.
  • sound processing such as sound volume adjustment, mixing, and reverberation has been performed before being provided to the listener.
  • the use of sound image localization technology for localizing sound at a desired position is still a new technology for providing sound effects.
  • the listener can perceive the sound to a place where the sound source does not exist. For example, even when sound is heard using headphones (hearing rain, binaural), it is possible to perceive as if a conversation is taking place behind the listener. Or you can simulate the sound of a vehicle passing by.
  • Sound image localization means that the listener determines the position of the sound that has been heard. Usually, the position determined as the sound source position coincides. However, even when the sound is reproduced using a headphone or the like (binaural listening), it is possible for the listener to perceive the sound to a desired target position.
  • the basic principle is to simulate a sound stimulus from a sound source placed at a desired target position in the immediate vicinity of the binaural eardrum of the listener. To realize this, listen from this target position It has been proposed that a coefficient reflecting the sound transfer characteristic to each ear of the user be convolution-operated with the sound signal and reproduced. The method will be described below.
  • FIG. 1A shows a situation where sound is reproduced using one sound source (speaker) 11.
  • the sound signal given to the sound source 11 is x (t), and the sound transfer characteristics (the head related transfer function ⁇ Head Related Transfer function ⁇ and ) Are represented as functions of ⁇ (t), h r (t), and time t, respectively.
  • the acoustic stimuli in the immediate vicinity of the eardrum is represented as functions of ⁇ (t), h r (t), and time t, respectively.
  • the symbol * indicates a convolution operation.
  • the transfer characteristics hi (t) and h r (t) are represented by an impulse response that is a function of time. In realistic digital sound signal processing, the signal is given by a coefficient sequence including a predetermined number of coefficients of a sampling period interval.
  • FIG. 1B shows a situation in which sounds are presented at the left and right ears 13L and 13R using the headphone 15 or the like (hereinafter, referred to as binaural listening).
  • each of the left and right ears 13 L, the acoustic transfer characteristic from f Ddohon 15 mag in 13R to the eardrum nearest hereinafter, referred to as ear canal transfer function ⁇ Ear Canal Transfer Function ⁇ ) each et), and e r (t) Become.
  • the previous stage to the audio signal x to play sound headphones 15 or the like each s ⁇ t the transfer characteristic), s r (t) and becomes coefficient sequence of the left and right convolution unit 16L, respectively convolution with 16R Calculate.
  • the acoustic stimuli in the immediate vicinity of the eardrum each s ⁇ t the transfer characteristic), s r (t) and becomes coefficient sequence of the left and right convolution unit 16L, respectively convolution with 16R Calculate.
  • the sound head localization transfer functions Si (t) and Sr (t) are considered in consideration of the sound output characteristics (hereinafter referred to as sound source characteristics) Sp (t) for the input sound signal x (t) to the target sound source 11.
  • the convolution units 16HL and 16HR and the deconvolution units 16EL and 16ER output the audio signal x (t).
  • the sound stimulus from the target sound source is simulated right near the eardrum of the listener, and the listener can localize the sound at the target position.
  • the sound transfer characteristics from the sound source used to present the left and right sounds (hereinafter referred to as the real sound source) 11L, 11R to the ear drums of the left and right ears 13L, 13R are respectively nen (t), Let eir (t), en (t) and e rr (t). However, the subscripts 1 and r indicate left and right, respectively.
  • t) represents the sound transfer characteristics from the left sound source 11L to the eardrum 13L of the left ear.
  • the acoustic stimuli near the eardrum are
  • the convolution unit 16 and the coefficient Ah! (T) fine Ah r (t) respectively and convolution operation performs deconvolution calculation using the further respective coefficients Ae (t) or s P (t) * Ae Nodochi Laka.
  • the same sound stimulus from the target sound source as in the case of using Eqs. (3a) and (3b) or Eqs. I can imitate. That is, it is possible for the listener to localize the sound image to the target position. Therefore, for example, in the system shown in FIG.
  • the sound transfer characteristics reflect the scattering of sound waves by the pinna, head, and body of the listener. Even if the target position and the listener position are the same, the sound transmission characteristics differ depending on the listener. In particular, it is said that the effect of significant individual differences in the shape of the pinna is large. Therefore, when sound transfer characteristics of other listeners are used, sound image localization to a desired target position is not guaranteed. Therefore, the head-related transfer functions (t), hr (t), extracorporeal sound image localization transfer functions S! (T), Sr (t), or transfer characteristics gi (t), gr (t) measured for each listener ) (Hereinafter collectively referred to as acoustic transfer functions) cannot be used to simulate faithful sound stimulation in each of the left and right ears.
  • An object of the present invention is to provide a method for generating an integrated sound transfer function table for virtual sound image localization that enables an unspecified number of listeners to localize a sound image at a target position, a storage medium storing the table, and a method thereof.
  • An object of the present invention is to provide a method for editing an audio signal using the same.
  • the method for creating a transfer function table for virtual sound localization includes the following steps:
  • the transfer function defined by the acoustic transfer function corresponding to the weight vector that minimizes the distance scale is defined as a representative value for the sound source position, and a transfer function table for virtual sound image localization
  • Figure 1A illustrates the sound transfer function (head-related transfer function) from the sound source to the eardrums of the left and right ears.
  • FIG. 1B is a diagram for explaining a method for realizing virtual sound image localization in a reproducing system using a headphone.
  • Fig. 2 is a diagram showing a method of realizing virtual sound image localization when the head related transfer function and the ear canal transfer function are treated separately in a playback system using a headphone.
  • Fig. 3 is a diagram for explaining a method for realizing virtual sound image localization in a reproduction system using two speakers.
  • Figure 4 shows the distribution of the Mahalanobis general distance between the weight vector and the median vector corresponding to the measured sound transfer function.
  • FIG. 5 is a diagram showing a correlation between weights corresponding to first and second principal components.
  • FIG. 6A is a functional block diagram for implementing a method of creating an acoustic transfer function table for virtual virtual sound image localization according to the present invention for a playback system using a headphone and editing an acoustic signal using the transfer function table.
  • FIG. 6B is a diagram showing another form of the acoustic transfer function table for virtual sound image localization.
  • FIG. 7 shows another embodiment of a method for creating an acoustic transfer function table for virtual sound image localization according to the present invention for another reproducing system using headphones, and a function for executing acoustic signal editing using the transfer function table.
  • Block diagram shows another embodiment of a method for creating an acoustic transfer function table for virtual sound image localization according to the present invention for another reproducing system using headphones, and a function for executing acoustic signal editing using the transfer function table.
  • Fig. 8 is a functional block diagram for creating a sound transfer function table for virtual sound image localization for a reproduction system using two speakers, and for editing sound signals using the transfer function table.
  • Figure 9 is a function block diagram for creating a sound transfer function table for virtual sound image localization for another playback system using two speakers, and for editing sound signals using the transfer function table.
  • FIG. 10 is a block diagram showing a modification of the arithmetic processing unit 27 in FIG. 6A.
  • FIG. 11 is a block diagram showing a modification of the arithmetic processing unit 27 in FIG.
  • FIG. 12 is a block diagram showing a modification of the arithmetic processing unit 27 in FIG.
  • FIG. 13 is a flowchart showing a procedure for implementing a method for creating an acoustic transfer function table for virtual sound image localization according to the present invention.
  • FIG. 14 is a diagram showing an example of a time-series coefficient of an out-of-head sound image localization transfer function.
  • FIG. 15 is a diagram showing an example of amplitude frequency characteristics of an out-of-head sound image localization transfer function.
  • Figure 16 shows the frequency characteristics of each principal component.
  • Figure 17A shows the first principal component of the weight vector corresponding to the acoustic transfer function measured in the left ear.
  • FIG. 6 is a diagram showing the sound source direction dependency of the minute.
  • Fig. 17B is a diagram showing the sound source direction dependency of the second principal component of the weight vector corresponding to the acoustic transfer function measured in the left ear.
  • Fig. 18A is a diagram showing the sound source direction dependency of the first principal component of the weight vector corresponding to the acoustic transfer function measured in the right ear.
  • Fig. 18B is a diagram showing the sound source direction dependency of the second principal component of the weight vector corresponding to the acoustic transfer function measured in the right ear.
  • Figure 19 shows the Mahalanobis generalized distance between the center value vector and each representative value.
  • FIG. 20 is a table showing the subject numbers of the selected out-of-head sound image localization transfer functions.
  • FIG. 21 is a block diagram showing a reproduction system to which the acoustic transfer function table of the present invention is applied when editing two input signals.
  • FIG. 22 is a block diagram showing a configuration in a case where the minimum processing is applied to the arithmetic processing unit 27 in FIG. 6A.
  • FIG. 23 is a block diagram showing a modified embodiment of FIG.
  • FIG. 24 is a block diagram showing a configuration in a case where the minimum processing is applied to the arithmetic processing unit 27 in FIG.
  • FIG. 25 is a block diagram showing a modified embodiment of FIG.
  • FIG. 26 is a block diagram illustrating a configuration in a case where the minimum phase is applied to the arithmetic processing unit 27 in FIG.
  • FIG. 27 is a block diagram showing a modified embodiment of FIG.
  • FIG. 28 is a block diagram showing a configuration in a case where the minimum processing is applied to the arithmetic processing unit 27 in FIG.
  • FIG. 29 is a block diagram showing a modified embodiment of FIG.
  • FIG. 30 is a block diagram showing a modified embodiment of FIG.
  • the number p of a series of coefficients representing each acoustic transfer function is generally large. For example, sampling frequency 48 If it is kHz, it will typically be several hundreds or more, and the amount of calculation processing for determining the representative value will be enormous.
  • sampling frequency 48 If it is kHz, it will typically be several hundreds or more, and the amount of calculation processing for determining the representative value will be enormous.
  • principal component analysis is effective in reducing the number of coefficients indicating the variation for a certain factor (for example, AAAfifi and SPAzen "Statistical Analysis, A Computer Oriented Approach, "Aca demic Press 1972).
  • the principal component analysis which is well known as a statistical processing method
  • the number of variables indicating the sound source direction and the characteristics of the subject can be reduced. Therefore, the amount of computation can be reduced (DJKistler and FLWightman, "A Model of Head-relate d Transfer Functions Based on Principal Components, Analysis and Minimum-Phase Reconstruction," Journal of the Acoustical Society of America 91, pp. 1637- 1647, 1992).
  • a principal component analysis is performed on the acoustic transfer function h k (t) obtained in advance by measurement.
  • the sound transfer function h k (t) is a function of time t.
  • k is an index for distinguishing by subject name, ear (left or right) and sound source position.
  • Principal component analysis is performed in the following procedure.
  • n is the total number of acoustic transfer functions (number of subjects X 2 (left 7 right ears) X number of sound source directions)
  • the size of the variance 'covariance matrix S is p Xp.
  • the principal component vector (coefficient vector) is obtained as the eigenvector of the variance-covariance matrix S,. That is
  • U is an eigenvalue corresponding to the principal component (eigenvector) Uq, and the contribution ratio increases as the eigenvalue / U increases.
  • the order q is in descending order of eigenvalue /
  • a processing method for determining a representative value will be described.
  • a center value vector w which is a center value of each weight vector Wk and a center value of all weight vectors.
  • the subject transfer function h (t) that minimizes the distance scale between z > is selected.
  • the weight vector w z > is
  • Mahalanobis general distance D k is used as a distance measure. Mahalanobis general distance D k is
  • ⁇ — 1 indicates the inverse matrix of the division and covariance matrix ⁇ . Partitioning of covariance matrix Element ⁇ ij is calculated as follows.
  • the amplitude frequency characteristic of the acoustic transfer function is represented using the weight vector Wk.
  • Wk weight vector
  • m is selected so that the cumulative contribution ratio p m of the m-th principal component up to the weight coefficient w km is 90% or more.
  • the weight vector w k and the coefficient matrix U are used.
  • Reducing the number of variables representing the amplitude frequency characteristics is advantageous for determining the representative value of the acoustic transfer function in the following points.
  • the Mahalanobis generalized distance shown in equation (13) is used as a measure for determining a representative value, an inverse matrix operation is required.
  • the calculation amount of the distance calculation can be significantly reduced.
  • the amplitude-frequency characteristics are composed of a large number of variables (see, for example, Brawelt, Morimoto, Goto, edited by Kashima Publishing Co., Ltd. (1986)).
  • a sound transfer function measurement value that minimizes the distance measure between the weight vector w k and the center value vector w z > is selected as a representative value of the sound transfer function.
  • the distribution of the Mahalanobis generalized distance D k 2 can be approximated to a ⁇ 2 distribution having a degree of freedom m centered on a center value vector w z >.
  • the distribution of the weight vector w k can be estimated as an m-dimensional normal distribution around the center value vector w z > where the center value is the densest. This means that the amplitude frequency characteristic of the representative value approximates the amplitude frequency characteristic of the sound transfer function by an unspecified number of subjects.
  • the reason for selecting the measured acoustic transfer function as a representative value is that it contains information on the remarkable amplitude frequency characteristics and the early reflection and reverberation that contribute to localization of the sound image at the target position. These components contributing to localization tend to be lost due to smoothing by the averaging process when generating a representative value by the simple average of the sound transfer function between subjects. Also, it is impossible to reconstruct the sound transfer function using only the weight vector w k . This is when calculating the weighting base-vector w k, because the phase-frequency characteristics are not taken into account. If, consider the case of reconstructing an acoustic transfer function from the center value Bekutoruku w z>.
  • the minimum phase synthesized from the amplitude frequency characteristics is used as the phase frequency characteristics, the initial reflection and reverberation may not be synthesized properly. Also, if the sound transfer function is measured for a large number of subjects, the distance measure D k between the weight vector w k and its median vector w z > that minimizes the distance — Sel is estimated to approximate the mouth.
  • the weight vector Wk_ ma X that maximizes the distance measure D k _ ma x of the weight base-vector corresponding to the representative value among the set given, the distance measure D k_ ma X center value It is reduced by considering the vector W Z > as the weight vector corresponding to the representative value.
  • the distance measure D k_ ma X center value
  • the Mahalanobis generalized distance D k is used as a distance measure between the principal component vector W k and the median vector w z >. The reason is this Mahalanobi This is because the correlation between each principal component in the weight vector space is considered in the process of calculating the generalized distance D k .
  • FIG. 5 shows the experimental results of the inventors of the present application, and shows that, for example, the correlation value between the first principal component and the second principal component is significant.
  • the sound transfer function from a certain target sound source position to one ear and the sound transfer function from the sound source position having an azimuth angle symmetrical to the sound source position to the other ear are the same.
  • the amplitude frequency characteristics of the two acoustic transfer functions are close to each other. This is based on the fact that the sound source azimuth angle dependence of the center value expressing the amplitude frequency characteristic of the acoustic transfer function for each sound source position and each ear is substantially symmetrical.
  • FIG. 6A is a block diagram showing both the creation of an acoustic transfer function table according to the present invention and the configuration for executing processing on an input acoustic signal using the table.
  • Tu (k, ⁇ , d), h r (k,, d), and e ⁇ ke ⁇ k) previously measured for the left and right ears of each subject at different sound source positions (, d) are stored in the measurement data storage unit 2.
  • the arithmetic processing unit 27 includes a principal component analysis unit 27A, a representative value selection unit 27B, a deconvolution unit 27C, and a force.
  • the principal component analysis unit 27 A performs principal component analysis on the obtained head-related transfer functions lu (t) and h r (t) and the ear canal transfer functions ei (t) and e r (t), and calculates the cumulative contribution.
  • the main components of the frequency characteristic whose ratio is equal to or more than a predetermined value (for example, 90%) are determined, and the weight vector with reduced number of dimensions is obtained from the analysis result.
  • the representative value selection unit 27 B calculates the center value vector w z > of the weight vector obtained from all subjects for each target position (set of 9 and left and right ears (denoted as (0, ear)). And the distance D between the weight vector and each of them is determined, and the HRTF h k (t) corresponding to the weight vector with the minimum distance is selected as a representative value h * k (t).
  • the center value vector of the ear canal transfer function is calculated from the weight vector of the ear canal transfer function, and the ear canal transfer function corresponding to the weight vector closest to the center value vector is represented by representative values e * i and e%. select.
  • the deconvolution unit 27 C deconvolves the representative values e * 1 and e * r of the ear canal transfer function with respect to the representative value h * (ta) of the head-related transfer function for each set (, ear). Obtain the sound localization transfer functions S l () and S r () outside the head and write them to the table in the storage unit 24. Therefore, measurement data storage The transfer function s r (, d) corresponding to each target position ( ⁇ , d) is obtained from the data of the product unit 26 according to the method of the present invention. Is determined and written in the virtual sound image localization acoustic transfer function notation storage unit 24 as a table.
  • the direction of the sound source is controlled as the position (, d), and the distance d is constant. Therefore, when processing is performed on the sound signal x (t) from the microphone 22 or another sound signal source (not shown), the signal specifying the desired target sound source position (direction) to be set from the target sound source position setting unit 25 Is given to the transfer function table storage unit 24, and the corresponding head-related transfer functions s! () And Sr () are read out and set in the acoustic signal processing units 23R and 23L, respectively.
  • Acoustic signal processing unit 23R, 23 L are transferred to each input acoustic signal x (t) function Si (), s r () and the convolution result by convoluting x (t) x (t) * s r () the acoustic processing acoustic signals yi (t), and outputs the result as y r (t) terminal 31 L, the 31R.
  • the thus obtained output sound signal yi (t) if play y r (t) for example, headphones 32, it is possible to localize a sound image at a position specified in the listener (direction).
  • Output signal yi (t), CD gives y r (t) to the recording unit 3 3, MD, example of recording on a tape or the like is also conceivable.
  • Fig. 7 shows the convolution operation using the head-related transfer functions t ( ⁇ ) and h r () and the ear canal transfer function e! In the acoustic signal processing units 23R and 23L in Fig. 6A.
  • the deconvolution operation by, e r is divided and performed.
  • the sound transfer function notation 2 for virtual sound image localization is obtained by calculating the representative values h r () and () of the head-related transfer functions determined by the processing unit 27 by the method of the present invention in a table corresponding to each direction angle.
  • the arithmetic processing unit 27 has the same configuration as the arithmetic processing unit 27A in FIG. 6A except that the deconvolution unit 27C is removed.
  • the acoustic signal processing units 23R and 23L are respectively composed of a set of a convolution unit 23HB and a deconvolution unit 23ER, and a set of a head-related transfer function convolution unit 23HL and a deconvolution unit 23EL.
  • 23HL, the head-related transfer function representative values h r ( ⁇ ), ⁇ () corresponding to the specified angular direction ⁇ are read from the transfer function table storage unit 24 and set.
  • Deconvolution unit 23ER constantly ear canal transfer function representative value in 23EL e r, have been read, convolution unit 23HR, convolution output x from 23HL (t) * h r ( ), x (t ) * lu Performs deconvolution on () by e r and , respectively. Therefore, as is apparent from equations (3a) and (3b), the outputs of the deconvolution units 23ER and 23EL are the outputs x (t)) and x (t) * of the acoustic signal processing units 23R and 23L in Fig. 6A. It is eventually the same as s r (). Other configurations and operations are shown in Figure 6A. Same as in the case.
  • FIG. 8 shows the transfer function set from the virtual sound image localization sound transfer function table storage unit 24 according to the present invention for the sound signal in the reproduction system using the two speakers 11R and 11L as in FIG. It shows an example of a configuration that performs processing to convolve gr () and (), and also shows a functional block configuration for creating an acoustic transfer function table for virtual sound image localization.
  • the transfer functions g r () and gl () according to the equations (5a) and (5b) are required, so the transfer function storage unit 24 stores the transfer functions g *), g () is written as a table.
  • the principal component analysis unit 27A of the arithmetic processing unit 27 includes the head-related transfer functions hr (t), h!
  • the transfer function err, ⁇ , ⁇ ⁇ ) is subjected to principal component analysis, and the representative value selection unit 27B, based on the analysis result, determines the center value for each pair (, ear) of each target direction ⁇ and ear (left, right).
  • the head-related transfer functions hr (t) and hi (t) that give the weight vector closest to the vector and the transfer functions between the real sound source and eardrum, e rr , en, and elr , are selected, respectively, and the representative values r (), r, ⁇ * r! , ⁇ * 1 r, e *! i.
  • the convolution unit 27D calculates the representative values h * r (), h () and the representative values e * rr , e * n, e * n, corresponding to each of the directions, ⁇ h *).
  • deconvolution unit 27F performs the deconvolution operation
  • FIG. 9 shows a configuration in which in the embodiment of FIG. 8, instead of performing the deconvolution operation in equations (5a) and (5b) in the deconvolution unit 27F, deconvolution is performed in the reproduction system as in FIG.
  • the convolution units 23HR and 23HL calculate the input sound signal x (t)
  • the transfer function table storage unit 24 in this embodiment stores ⁇ e * and ⁇ ⁇ ) and ⁇ h () corresponding to each target position ⁇ as a table.
  • the actual value selected by the representative value selection unit 27B based on the analysis result by the principal component analysis unit 27A is the same as in the case of FIG.
  • the transfer functions e rr , e rl , e lr , and eil of the sound source are determined as representative values e * rr , ee * " ⁇ * ⁇ , respectively, and h r (), h ⁇ , Are determined as representative values h * r (/ 9) and h (), respectively.
  • the representative values determined in this manner are further used by the convolution operation unit 27 D for each
  • the measured acoustic transfer function is first subjected to principal component analysis, a representative value is determined based on the principal component analysis, and then the deconvolution operation (FIG. 6A) and the convolution operation are performed. And deconvolution (Figs. 8 and 9) are performed in parallel.
  • the deconvolution operation or the convolution operation may be performed in advance, and then the representative value may be determined based on the principal component analysis.
  • the deconvolution unit 27C in Fig. 6A is provided on the input side of the principal component analysis unit 27A, and all the measured head related transfer functions hr (t), h! :) with the external auditory canal transfer function e r , e! beforehand.
  • the principal components of the numbers Sr (t) and Si (t) are analyzed, and the representative values S * r () and S () are determined based on the results.
  • the convolution operation units 27D and 27E and the deconvolution unit 27F in the embodiment of FIG. 8 are provided on the input side of the principal component analysis unit 27A, and all measured head-related transmissions are performed.
  • the transfer function g gi may be subjected to principal component analysis to determine the representative value g (, g ().
  • the convolution operation units 27D and 27E in the embodiment of FIG. 9 are provided on the input side of the principal component analysis unit 27A, and the measured head-related transfer functions h r () and hi () And the transfer function between the real sound source and the eardrum, e rl , Ah r (, Ask for Ae.
  • the representative values Ah * r (/?), Ah * i ( ⁇ ), and Ae * were determined by principal component analysis.
  • FIG. 13 shows the procedure of one embodiment of the virtual acoustic transfer function table creation method of the present invention.
  • Mahalanobis generalized distance is used as a distance measure between the weight vector of the amplitude frequency characteristic of the acoustic transfer function and its center value vector.
  • Step S 0 Data collection
  • the sound source 11 is placed at each of these 24 points, and the head-related transfer functions ln (t) and h r (t) are measured.
  • the output characteristics s P (t) of the sound source (speaker) 11 are also measured once in advance.
  • the number of coefficients that make up the out-of-head sound localization transfer function s! (T) and s r (t) is 2048, and the discrete-time function sampled at a sampling frequency of 48.0 kHz is less than the input source signal x (t). Measure the pons.
  • Step S A Principal component analysis
  • Step S1 First, fast Fourier transform (FFT) is performed on the out-of-head sound localization transfer functions of a total of 2736 (57 subjects, 2 X ears (left and right), 2 X sound source locations, 24 directions). Further, the amplitude frequency characteristic H k (f) is obtained by taking the logarithmic value after taking the absolute value.
  • Fig. 15 shows an example of the amplitude frequency characteristics of the out-of-head sound localization transfer function. According to Nyquist's sampling theorem, a sampling frequency of 48.0 kHz and a half-value of 24.0 kHz can be expressed. However, the frequency band of sound waves that the sound source 11 for measurement can stably generate is 0.2 to 15.0 kHz.
  • amplitude frequency characteristics for the frequency band 0.2 to 15.0 kHz are used as characteristic values.
  • Step S2 Next, a variance / covariance matrix S is obtained according to the equation (6).
  • the size of the variance / covariance matrix S is 632 X632 from the size of the characteristic value vector.
  • Step S 3 Next, eigenvalues ⁇ beauty inherent base-vector (main component base-vector) of covariance matrix S satisfying the equation (7) determining the u q.
  • the order q of the variance-covariance matrix S is determined in descending order of the eigenvalue iq as shown in Eq. (8).
  • Step S4 Next, using equation (10), the cumulative contribution rate P m from the first to the m-th principal component is calculated in ascending order of the eigenvalue q , and the cumulative contribution rate p m becomes 90% or more. Find the minimum m.
  • the cumulative contribution ratio P m was 60.2, 80.3, 84.5, 86.9, 88.9, 90.5% in order from the first principal component. Therefore, the dimension m of the weight vector w k is defined as 6.
  • Figure 16 shows the frequency characteristics of the first to sixth principal component vectors Uq. Each main component represents a characteristic frequency characteristic.
  • left and right ears is calculated and the center value vector torque w z> for each sound source direction.
  • Figures 17A, 17B and 18A, 18B are the median and standard deviation of the weights conjugated to the first and second principal components of the extracorporeal sound image localization transfer function measured at the left and right ears. Are respectively shown.
  • the azimuth of the sound source was counterclockwise with the subject facing 0 °.
  • the sound source direction dependence of the weights is significant (for each principal component, an F-value with a significance level of p ⁇ 0.001 is obtained).
  • the weight vector corresponding to the acoustic transfer function varies with the subject, but is significantly different from the sound source position.
  • the sound source directional characteristics of the weights for the out-of-head sound localization transfer functions measured in the left and right ears are evident. Nearly left and right ⁇ results are obtained.
  • Step S B Representative value determination processing
  • Step S 6 Next, for each ear (left and right) and sound source direction (), the median vector w z > of all the subjects (k) w k is obtained from equation (12).
  • Step S7 The variance / covariance matrix ⁇ of the weight vector w k of all subjects obtained for each ear and each sound source direction is obtained by equation (14).
  • Step S8 As a distance measure between the weight vector w k and the median vector w z ⁇ , the Mahalanobis generalized distance D k expressed by equation (13) is used. For the sound source direction, the Mahalanobis generalized distance D k of the weight vector w k and the median vector w z > of all the subjects was calculated-9.
  • Step S 9 Mahalanobis' generalized distance D k to select the head related transfer function h k (t) corresponding to the weight base-vector w k with the minimum as the representative value, the ears in the storage unit 2 4 in FIG. 6 A, the sound source It is stored in association with the direction. In this way, the selected out-of-head sound image localization transfer function for all ears and sound source directions is obtained as a representative value of the acoustic transfer function.
  • determined ear canal transfer function e r a set of ear canal transfer function by performing the steps S 1 to S 9 also ei representative value e, as e, stored in the storage unit 2 4.
  • Figure 19 shows the weight vector (Selected L / R) corresponding to the representative value of the out-of-head sound localization transfer function and the weight vector (D Head L / R) corresponding to the out-of-head sound localization transfer function using the pseudo head.
  • R) shows Mahalanobis generalized distance. Mahalanobis pan-distance for representative values yes The gap was less than 1.0. The out-of-head sound localization transfer function due to the pseudo head is also obtained using Eq. (11).
  • the calculation of the principal component vector Uq does not include the out-of-head sound localization transfer function due to the pseudo head. That the main component base vector Uq and center value Bekutoruku w z> is related to the subject 5 seven.
  • the Mahalanobis general distance for the pseudo head (D Head L / R) is typically around 2.0, a maximum of 3.66, and a minimum of 1.21.
  • FIG. 20 shows the subject numbers (1 to 57) of the selected sound image localization transfer function.
  • FIG. 20 shows that the same subject is not necessarily selected for all sound source directions or the same ear.
  • the sound transfer function table was created when the sound source 11 was placed on a circle with a radius of 1.5 m around the listener, but the circumference of other radii d 2 , ds,... The same measurement was performed for the case where the sound source 11 was placed above, and the sound transfer function was selected according to the processing in Fig. 13 and the sound transfer was performed not only for the sound source direction ⁇ but also for each radius d as shown in Fig. 6B.
  • a table for classifying the functions may be created. In this case, a clue is provided to control the sound image localization position in the radial direction.
  • an acoustic transfer function from one sound source position to one ear, and a sound transfer function from an azimuth angle symmetrical to the sound source position to the other ear are assumed to be approximately the same, and are determined to be the same.
  • the selected sound transfer function from the sound source position azimuth angle of 30 ° to the left ear in step S9 is also adopted as the sound transfer function from the sound source position azimuth angle of 30 ° to the right ear.
  • Figs.17A and 17B and Figs. It is based on the fact that a center value vector that is almost symmetrical about the angle is obtained.
  • the number of acoustic transfer functions h (t) required for selection is halved, and therefore the time required for measuring all h (t) and the time required for preparing a table can be reduced, and The amount of information required to store the obtained acoustic transfer function can be halved.
  • FIG. 1 shows the sound localization transfer functions Si (t) and Sr (t).
  • FIG. 21 shows another embodiment of the acoustic signal editing system using the virtual sound image localization acoustic transfer function table created as described above.
  • FIGS. 6A and 6B show an example of an audio signal editing system that processes one input audio signal x (t) .In the embodiment of FIG. 21, two audio signals Xi (t) and In this example, x 2 (t) is input. Acoustic signal processing unit 23Li, 23Ri, 23L 2 , 23R 2 Acoustic signal output from each input system Then, the signals are added for each of the left and right channels, and output as one system of two left and right channel acoustic signals.
  • Acoustic signals Xl of the input terminals 211, 21 2 for example, from the recording studio microphone, chi 2, or already CD being recorded, MD, acoustic signals ⁇ ⁇ 5 ⁇ 2 reproduced from the tape or the like is input.
  • These acoustic signals Xi, chi 2 is branched into right and left channels respectively provided to left and right audio signal processing unit 23, 23 ⁇ and 23L 2, 23R 2, the acoustic transfer function which is set from the out-of-head sound localization transfer function table Si (, Sr (and Sl (2), s r ( 2) is convoluted.
  • theta 1 each first and second systems of audio (acoustic signal X1, chi 2) target position relative (here in indicating the direction).
  • the output of the audio signal processing unit 23, 23 ⁇ and 23L 2, 23R 2 acoustic signals of the corresponding channels are added by the right and left addition unit 28L, 28R, the output terminal 31L, 31R from the headphones 32 or CD , MD, left and right channel sound signals to the recording device 33 to the tape Ichipu like yi (t), is given as y r (t).
  • the target sound source position setting unit 25 outputs the specified target position signal, 2 and is given to the acoustic transfer function table storage unit 24.
  • the sound transfer function table storage unit 24 stores the sound transfer function table for virtual sound image localization created as described above, and provides the out-of-head sound image localization transfer function corresponding to the given target position signal, 2.
  • Si (i), Sr ( ⁇ l), Sl ( ⁇ 2) reads the s r (2), to configure the audio signal processing unit 23Li, 23Ri, the 23L 2, 23R 2, respectively.
  • the out-of-head sound image localization transfer function Si (, Sr (/ 9i)
  • acoustic transfer characteristic g of s 2) (, g * r ( ⁇ ?, g 2), g * r (2) using the output audio signal y l5 y r a similarly reproduced by the speaker system 1 , 2 can be localized to the position ⁇ 2 for an unspecified listener.
  • a storage medium such as a RAM or a ROM can be used.
  • the storage medium includes out-of-head sound image localization transfer functions s! (), Which correspond to all possible sound source positions, respectively.
  • a table may be created by selecting the representative value corresponding to each sound source position (sound source direction) from the measured head-related transfer functions In (t) and h r (t) in the same procedure as in Fig. 6A. . In that case, all of the e was measured for subjects! (T), e r ( t) from the one set in the procedure of FIG. 6A e (t), have selected as a representative value of the e * r (t), Save it in a table.
  • Equation (3a) shows that the convolution unit 16EL can be configured by cascade connection of the EL, and similarly, the convolution unit 16R can be configured by cascade connection of the HRTF convolution unit 16HR and the ear canal transfer function inverse convolution unit 16ER. ), (3b).
  • the deconvolution operation may be performed using a coefficient whose phase has been minimized in advance.
  • a coefficient that reflects the sound transfer characteristics from the sound source used to present the sound stimulus to each ear of the listener is used as the target for minimizing the phase.
  • MP ⁇ h ⁇ FFr 1 (exp ⁇ FFT (W (FFr 1 (loglFFT (h) l))) ⁇ (17)
  • FFT— 1 is the inverse fast Fourier transform
  • W (A) is the filter coefficient vector A Shows the window function, where A for the 1st and ⁇ / 2 + lth values are used as is, and A for the 2nd to n / 2th is doubled, and n / 2 + 2th and subsequent Let A be zero.
  • the amplitude frequency characteristic of the coefficient to be calculated does not change.
  • the binaural time difference mainly appears in the HRTF.
  • FIG. 22 shows a case in which the minimum processing is applied to the arithmetic processing unit 27 in FIG. 6A.
  • the arithmetic processing unit 27 is provided with a minimizing phase unit 27G, and performs minimization processing on the ear canal transfer function representative value e * e determined by the representative value selecting unit 27B.
  • the minimum phase representative values MP ⁇ e ⁇ and MP ⁇ e * J obtained in this way are given to the deconvolution unit 27C, and the deconvolution operation expressed by the equations (3a) and (3b) is performed.
  • the obtained out-of-head sound image localization transfer function s * ⁇ ), s is written to the transfer function table storage unit 24 in FIG. 6A.
  • FIG. 23 shows a modified embodiment of the embodiment of FIG. 22, in which the ear canal transfer functions (t) and er (t) stored in the measurement data storage unit 26 are minimized before the principal component analysis is performed.
  • Part 27 G performs minimum phase processing.
  • the head-related transfer functions h r (t) and hi (t) for all target positions are deconvoluted by the deconvolution unit 27C for each subject. Deconvolution operation.
  • the representative values s * 8 ⁇ ) and s *! Write to transfer function table storage unit 24.
  • FIG. 24 shows a case where the minimum phase conversion method is applied to the arithmetic processing unit 27 in FIG.
  • the arithmetic processing unit 27 in FIG. 7 includes a minimizing phase unit 27G, and performs minimization processing on the ear canal transfer function representative values e and e * r determined by the representative value selecting unit 27B.
  • the representative values MPie *! ⁇ And MP ⁇ e * r ⁇ obtained by the above are representative values of the head-related transfer function ⁇ ), h *! Determined by the representative value selection unit 27B. It is written into the transfer function table storage unit 24 of FIG.
  • FIG. 25 is a modification of the embodiment of FIG.
  • the ear canal transfer functions (t) and er (t) stored in the measurement data storage unit 26 are subjected to the minimum phase processing by the minimum phase unit 27G.
  • the resulting phase minimization ear canal transfer function MP ⁇ e r ⁇ , MP ⁇ ei ⁇ is related transfer accumulated in measurement data storing section 2 6 function h r (t), the main parallel with hi (t)
  • the analysis is performed by the component analysis unit 27B, and each representative value is determined by the representative value selection unit 27B based on the analysis result.
  • FIG. 26 shows a case in which the minimum phase conversion method is applied to the arithmetic processing unit 27 in FIG. 8.
  • a minimum phase conversion unit 27G is provided in the arithmetic processing unit 27 in FIG. 8, and the calculation is performed by the convolution operation unit 27E.
  • ⁇ i * e rr -eir * en ⁇ is subjected to minimum phase processing by the minimum phase conversion unit 27H.
  • FIG. 27 is a modified embodiment of FIG. 26.
  • Principal component analysis is performed on the transfer functions gr (t) and g! (T) obtained as a result, and the representative values g () and g * l
  • FIG. 28 shows a case in which the minimum phase conversion method is applied to the arithmetic processing unit 27 in FIG. 9.
  • the minimum processing unit 27H is provided in the arithmetic processing unit 27 in FIG. i * e rr -eir * en ⁇ is subjected to minimum phase processing by the minimum phase conversion unit 27H.
  • the minimum phase minimization vector MP ⁇ Ae * ⁇ obtained in this manner is stored in the transfer function table storage unit 24 in FIG. 9 together with Ah * r . () And ⁇ *! () From the convolution operation unit 27D. It is written.
  • FIG. 29 is a modification of FIG. 28, in which a series of processes of the convolution operation units 27 D and 27 E and the minimum phase conversion unit 27 H in FIG.
  • FIG. 30 is a modification of FIG. 29, in which the minimum phase shifter 27 H is provided on the output side of the representative value selector 27 B to minimize the phase of the determined representative value A e *.
  • the only difference from Fig. 29 is.
  • the left and right of each target sound source position is determined based on the principal component analysis from the acoustic transfer functions measured for a large number of subjects.
  • One set of acoustic transfer functions can be determined with few degrees of freedom.
  • the acoustic transfer function can be determined in consideration of the density of the probability distribution of the acoustic transfer function regardless of the absolute value of the variance or covariance.
  • the sound transfer function from one sound source position to one ear and the sound transfer function from the sound source position with an azimuth angle symmetrical to the sound source position to the other ear are determined the same, the sound required for selection can be obtained.
  • the amount of transfer function or the amount of information required to store the selected acoustic transfer function can be halved.
  • the deconvolution operation is performed using a coefficient reflecting the minimum phase-shifted acoustic transfer function from the actual sound source to each ear, thereby performing the out-of-head sound image localization transfer.
  • the divergence of the function or the transfer characteristic and thus the acoustic signal can be avoided.

Description

明細書
仮想音像定位用伝達関数表作成方法、 その伝達関数表を
記録した記憶媒体及びそれを用 、た音響信号編集方法
技術分野
この発明は、 音像定位制御に使用される音響伝達関数表の作成方法、 及びその 表を記憶した記憶媒体、 及びその表を使つた音響信号編集方法に関する。
良好な音質で音楽を楽しめる C Dが普及して久しい。 音楽、 音声、 音響情報、 その他の音響サービスを記憶媒体から、 あるいはネッ トワークを通して提供する 場合、 音源からの音響情報を処理しないでそのまま提供してへッ ドホン又はスピ —力から再生するのではなく、 音量調整、 ミキシング、 残響付加、 等の音響処理 を施してから受聴者に提供することは従来から行われてきた。 そのような音響処 理の一形態として、 音を所望の位置に定位させる音像定位技術の利用は音響効果 を付与する処理技術としてまだ新しい。 この技術を利用して、 音源が実在しない 場所へ音を受聴者に知覚させることが可能になる。 例えば、 へッ ドホンを用いて 音を受聴させる場合 (雨耳受聴、 バイノーラル受聴) でも、 受聴者の後方であた かも会話がなされているように知覚させることができる。 あるいは、 乗り物が目 前を通過する音を模擬する事もできる。
音楽 C Dなどのソフ ト制作以外の分野においても、 音像定位技術の新しい応用 が展開している。 仮想現実感、 サイバースペースなどにおける要求技術として音 像定位技術の利用が試みられている。 また、 身近な音像定位技術の応用例として、 ゲ一ムにおける効果音が挙げられる。 このような音像定位処理された音響信号の 提供は、 音像定位処理された音響信号を半導体 R OM, C D, MD, MTなどの 記憶媒体に記録しておき、 それを再生して利用者に提供するか、 あるいは音源か らの音響信号をリアルタイムで音像定位処理して利用者に提供する。
音像定位とは、 聴取した音の位置を受聴者が判断することである。 通例、 音源 位置と判断された位置とは一致する。 しかし、 ヘッ ドホンなどを用いて再生した 場合 (両耳受聴) でも、 所望の目的位置へ音を受聴者に知覚させることが可能で ある。 基本原理は所望の目的位置に設置された音源による音刺激を受聴者の両耳 鼓膜直近において模擬することにある。 実現のためには、 この目的位置から受聴 者の各耳までの音響伝達特性を反映する係数を音響信号に各々畳込み演算したう えで再生することが提案されてきた。 その方法を以下に説明する。
図 1 Aは 1個の音源(スピーカ) 11を用いて音を再生する状況を示す。 音源 11に与えられる音響信号を x(t)、 音源 11から受聴者 12の左右各耳 13L, 13 Rの鼓膜直近までの間の音響伝達特性(頭部伝達関数 {Head Related Trans fer Function} と称される) を各々 ^(t), hr(t)と時刻 tの関数で表わすことに する。 このとき、 鼓膜直近における音響剌激は左右それぞれ
Figure imgf000004_0001
となる。 記号 *は畳込み演算を示す。 伝達特性 hi(t), hr(t)は時間関数であるィ ンパルス応答で表される。 現実的なディジタル音響信号処理においては、 サンプ リング周期間隔の所定数の係数からなる係数列で与えられる。
一方、 図 1Bはヘッ ドホン 15等を用いて左右各耳 13L, 13Rにおいて音 を提示する状況(以下、 両耳受聴と称す) を示す。 このとき、 左右各耳 13 L, 13Rにおけるへッドホン 15等から鼓膜直近までの音響伝達特性(以下、 外耳 道伝達関数 {Ear Canal Transfer Function } と称す) は各々 e t), er(t)とな る。 ここで、 ヘッドホン 15等で音を再生する前段に音響信号 x(t)に伝達特性が 各々 s^t), sr(t)となる係数列を左右畳込部 16L, 16Rでそれぞれ畳込み演 算する。 このとき、 鼓膜直近における音響剌激は左右それぞれ
Figure imgf000004_0002
となる。 ここに、 畳込み係数列 s t), Sr(t)を
Figure imgf000004_0003
と定める。 但し、 記号ノは逆畳込み演算を示す。 式 (la)と式 (2a)、 式 (lb)と式 (2 b)は各々等しくなるため、 図 1 Aにおける音源 11による音刺激が受聴者 12の 鼓膜直近において模擬される。 このとき、 受聴者 12は図 1 Aにおける音源 11 の位置に音像 17を定位する。 つまり、 目的位置に設置された音源(以下、 目的 音源と称す) 11による音刺激を受聴者 12の鼓膜直近において模擬することに よって、 受聴者 12にその目的位置へ音像 17を定位させることが可能となる。 前記の畳込み演算に用いられる係数列 Si(t), Sr (t)は、 頭外音像定位伝達関数
(Sound Localization Transfer Function)と称され、 外耳道伝達関数 e! (t), er
(t) が補正され
Figure imgf000005_0001
ともみなせる。 上記のように頭外音像 定位伝達関数 S! (t), Sr (t)を畳込み係数列として用いることによって、 頭部伝達 関数 lH (t), hr (t)のみを畳込み係数列として用いる場合よりも音刺激の模擬が忠 実になる。 S.Shimada and S.Hayashi の文献 FASE'92 Proceeding 157, 1992によ れば、 頭外音像定位伝達関数を用いた場合に受聴者が目的位置への音像定位を確 実に行うことが確かめられている。
更に、 目的音源 11への入力音響信号 x(t)に対する音響出力特性(以下、 音源 特性と称す) Sp(t) を考慮して頭外音像定位伝達関数 Si(t), Sr (t)を
Figure imgf000005_0002
Sr (t)
Figure imgf000005_0003
(t)/{Sp(t)*er (t)} (3b')
と定めれば、 目的音源の出力特性 SP(t) に依存しない頭外音像定位伝達関数が得 られる。
或いは、 図 2に示すように、 入力された 1チャネルの音響信号 x(t)を左右分岐 した後で、 畳込み部 16HL,16HR及び逆畳込み部 16EL,16ERによりその音響信号 x(t) に頭部伝達関数 hi(t), hr(t)による畳込み演算と、 係数 ei(t), er(t)又は sP(t)* ei(t), sP(t)*er(t)を用いた逆畳込み演算とを次式
x(t)*hi(t)/ei(t) (2a')
x(t)*hr (t)/er (t) (2b')
x(t)*hi(t)/{sP(t)*ei(t)} (3a")
x(t)*hr(t)/{sP(t)*er(t)} (3b")
のように左右各々直列に実行しても、 目的音源による音刺激が受聴者の鼓膜直近 において模擬され、 受聴者は当該目的位置に音を定位することができる。
他方、 図 3に示すように受聴者から離れた左右の位置にそれぞれスピーカ 11 L, 11Rを設置し、 これらを用いて音を提示する系 ( トランスオーラル系と称 される) を構成した場合でも、 目的音源による音剌激を受聴者の鼓膜直近におい て再現すれば、 受聴者に当該目的位置へ音像定位させることが可能になる。 例え ば、 図 2において左右の音の提示に用いられる音源(以下、 実音源と称す) 11 L, 11Rから左右各耳 13L, 13 Rの鼓膜直近までの音響伝達特性をそれぞ nen(t), eir(t), en(t), err(t)とする。 但し、 添え字 1, rは各々左、 右を 示す。 例えば t)は左側音源 11Lから左耳 13 Lの鼓膜直近までの音響伝達 特性を表す。 ここに、 音源 11L, 11Rで音を再生する前段において畳込み部 16L, 16Rで各々伝達特性を表す係数列 g!(t), gr(t)を畳込み演算する。 こ のとき、 鼓膜直近における音響刺激は左右それぞれ
x(t)*{gi (t)*ei i (t) + gr (t)*er i (t)} (4a)
x(t)*{gr(t)*er r(t) + gi(t)*elr(t)} (4b)
となる。 ここで、 目的音源による音響刺激を受聴者左右各耳の鼓膜直近において 再現するために、 式 (la)と式 (4a)、 式 (lb)と式 (4b)を各々等置することによって 伝達特性 ら), gr(t)を定める。 即ち、 伝達特性 gi(t), gr(t)は
Figure imgf000006_0001
と決定される。 但し、
Δ hi (t) = er r (t)*hi (t) -er I (t)*llr (t)
A hr (t) = en(t)*hr (t)-eir(t)*hi (t)
Ae(t) = en(t)*er r(t) -ei r(t)*en(t)
と定めた。
式 (3a'), (3b')と同様に目的音源特性 sP(t) を考慮すれば、 伝達特性 gl(t), gr (t)は
gi(t) = Ahi(t)/{sP(t)*Ae(t)} (5a')
gr(t) = A hr(t)/{sP(t)*Ae(t)} (5b')
となる。
図 2の両耳受聴の場合と同様に、 入力された 1チヤネルの音響信号 x(t)を左右 分岐した後で、 畳込み部 16し、 16Rにおいてその音響信号に係数 Ah!(t) 及 び Ahr(t) を各々畳込み演算し、 更にそれぞれ係数 Ae(t)又は sP(t)*Ae のどち らかを用いて逆畳込み演算を行う。 この場合も式 (3a),(3b) 又は式 (5a' ), (5b') を用いた場合と同様な目的音源による音刺激を受聴者各耳の鼓膜直近において模 擬できる。 つまり、 受聴者に当該目的位置へ音像定位させることが可能になる。 従つて、 例えば図 1 Aのシステムにおいて予め受聴者に対し所定の方向 Θで所 定の距離 dに音源を配置した場合の例えば式 (3a),(3b)或いは(3a'),(3b')の伝達 関数を測定しておき、 その伝達関数を例えば図 1Bの再生システムにおける音源 信号 x(t)に対し、 それら伝達関数をフィルタ 16 L, 16Rにより畳み込んで得 た信号をヘッ ドホン 14L, 14Rに与えることにより、 受聴者は音を目的音源 位置に定位できることが知られている (例えば島田、 林;電気通信学会技術報告、 EA - 11, 1992、 及び島田、 他;電気通信学会技術報告、 EA- 93- 1, 1993) 。 そこで、 例えば図 1 Aにおいて予め一定角度間隔で所望の角度範囲に渡って式 (3a), (3b) 或いは(3a'), (3b')による伝達関数の組を全て測定して表として ROM, CD, MD, MTのような記憶媒体に記憶しておく。 図 1 Bの再生システムにおいて、 時間と共に変化する目的位置 6>に対応した伝達関数の組を記憶媒体の表から読み 出してフィルタ 16L, 16Rに設定する。 このとき、 音像位置を時間と共に変 化させることができる。
一般に音響伝達特性は受聴者本人の耳介、 頭部、 体躯による音波の散乱を反映 する。 目的位置と受聴者位置が同一であっても、 受聴者によって音響伝達特性は 異なる。 特に、 耳介の形状における顕著な個人差による影響が大きいといわれる。 そのため、 他の受聴者による音響伝達特性を用いた場合には、 所望の目的位置へ の音像定位は保障されない。 従って各受聴者毎に測定された頭部伝達関数 (t), hr(t)、 頭外音像定位伝達関数 S!(t), Sr(t)、 又は伝達特性 gi(t), gr(t) (以下、 音響伝達関数と総称する) を用いなければ、 左右各耳における忠実な音刺激の模 擬はできない。
しかし、 各受聴者及び各目的音源位置毎に音響伝達関数を測定することは非現 実的である。 現実的には、 各音源位置 について左右 1組の音響伝達関数を代表 させることが望ましい。 そこで、 疑似頭を用いて測定された音響伝達関数(D.W. Begault, "3D- SOUND, "讓)、 又はある 1名の被験者によって測定された音響伝 達関数 (E.M.Wensel et al, "Localization using non individualized head-re 1 ated transfer functions," Journal of the Acoustical Society of America 9 4(1), 111) が用いられてきた。 しかし、 音響伝達関数の代表値の決定に当たり定 量的な検討が欠けていた。 島田らは定量的に同一音源位置 にっき数組の頭外音 像定位伝達関数を予め準備することを提案した (S. Shimada et al , "A Cluster! ng Method for Sound Local ization Function, " Journal of the Audio Enginee ring Society 42(7/8) , 577 ) 。 その場合でも、 各目的位置について最もこれに近 接した位置への定位を可能にする頭外音像定位伝達関数を受聴者自身が選択する 必要性が残されている。
定位位置の設定を伴う音響信号の編集においては、 目的位置と音響伝達関数と の一意の対応関係は必須である。 この様な編集は目的位置に対応する音響伝達関 数を利用した音響信号処理を含むためである。 また、 受聴者毎に異なる音響伝達 関数を準備を行うためには膨大な記憶領域を必要とする。
この発明の目的は、 不特定多数の受聴者に目的位置への音像定位を可能とする 統合的な仮想音像定位用音響伝達関数表を生成する方法及びその表を記録した記 憶媒体、 及びそれを使つた音響信号の編集方法を提供することである。
発明の開示
この発明による仮想音像定位用伝達関数表作成方法は以下のステップを含む:
(a) 少なくとも 3人以上の被験者について、 少なくとも 1以上の目的音源位置 のそれぞれから左右耳に至る予め測定された音響伝達関数を主成分分析して前記 音響伝達関数にそれぞれ対応する重みべクトルを得て、
(b) 各上記目的音源位置についての上記重みべクトルの中心値べクトルを求め、
(c) 各上記目的音源位置について、 上記中心値べクトルと各重みべクトルの距 離尺度を求め、
(d) 各上記目的音源位置について、 上記距離尺度が最小となる重みベクトルに 対応する上記音響伝達関数により規定される伝達関数をその音源位置についての 代表値と定め、 仮装音像定位用伝達関数表とする。
図面の簡単な説明
図 1 Aは音源から左右耳の鼓膜までの音響伝達関数(頭部伝達関数) を説明す るための図。
図 1 Bはへッドホンを用いた再生系における仮想音像定位の実現方法を説明す るための図。 図 2はへッドホンを用いた再生系において頭部伝達関数と外耳道伝達関数を別 個に扱つた場合の仮想音像定位の実現方法を示す図。
図 3は 2つのスピーカを用いた再生系における仮想音像定位の実現方法を説明 するための図。
図 4は測定された音響伝達関数に対応する重みべクトルと中心値べクトルの間 のマハラノビス汎距離の分布を示す。
図 5は第 1及び第 2主成分に対応する重みの相関を示す図。
図 6 Aはへッドホンを用いた再生系のためのこの発明による仮想仮想音像定位 用音響伝達関数表作成方法とその伝達関数表を用いた音響信号編集とを実施する ための機能プロック図。
図 6 Bは仮想音像定位用音響伝達関数表の他の形態を示す図。
図 7はヘッドホンを用いた他の再生系のためのこの発明による仮想音像定位用 音響伝達関数表作成方法の他の形態とその伝達関数表を用 、た音響信号編集とを 実施するための機能プロック図。
図 8は 2個のスピーカを用いた再生系のための仮想音像定位用音響伝達関数表 作成方法と、 その伝達関数表を用いた音響信号編集とを実施するための機能プロ ック図。
図 9は 2個のスピーカを用いた他の再生系のための仮想音像定位用音響伝達関 数表作成方法と、 その伝達関数表を用いた音響信号編集とを実施するための機能 プロック図。
図 1 0は図 6 Aにおける演算処理部 2 7の変形例を示すプロック図。
図 1 1は図 8における演算処理部 2 7の変形例を示すブロック図。
図 1 2は図 9における演算処理部 2 7の変形例を示すプロック図。
図 1 3はこの発明による仮想音像定位用音響伝達関数表作成方法を実施する手 順を示すフロー。
図 1 4は頭外音像定位伝達関数の時系列係数の例を示す図。
図 1 5は頭外音像定位伝達関数の振幅周波数特性の例を示す図。
図 1 6は各主成分の周波数特性を示す図。
図 1 7 Aは左耳で測定された音響伝達関数に対応する重みべクトルの第 1主成 分の音源方向依存性を示す図。
図 1 7 Bは左耳で測定された音響伝達関数に対応する重みべクトルの第 2主成 分の音源方向依存性を示す図。
図 1 8 Aは右耳で測定された音響伝達関数に対応する重みべクトルの第 1主成 分の音源方向依存性を示す図。
図 1 8 Bは右耳で測定された音響伝達関数に対応する重みべクトルの第 2主成 分の音源方向依存性を示す図。
図 1 9は中心値べクトルと各代表値間のマハラノビス汎距離を示す図。
図 2 0は選択された頭外音像定位伝達関数の被験者番号を示す表。
図 2 1は 2系統の入力信号を編集する場合にこの発明の音響伝達関数表を適用 した再生系を示すプロック図。
図 2 2は図 6 Aにおける演算処理部 2 7に最小位相化を適用した場合の構成を 示すブロック図。
図 2 3は図 2 2の変形実施例を示すブロック図。
図 2 4は図 7における演算処理部 2 7に最小位相化を適用した場合の構成を示 すブロック図。
図 2 5は図 2 4の変形実施例を示すプロック図。
図 2 6は図 8における演算処理部 2 7に最小位相化を適用した場合の構成を示 すブロック図。
図 2 7は図 2 6の変形実施例を示すプロック図。
図 2 8は図 9における演算処理部 2 7に最小位相化を適用した場合の構成を示 すプロック図。
図 2 9は図 2 8の変形実施例を示すプロック図。
図 3 0は図 2 9の変形実施例を示すプロック図。
発明を実施するための最良の形態
主成分分析の導入
. 本発明で、 音響伝達関数の代表値を決定するためには、 各受聴者による音響伝 達関数の特徴量を定量的に実現することが必要である。 各音響伝達関数(インパ ルス応答) を表現する一連の係数の数 pは一般に大きい。 例えば標本化周波数 48 kHz とすると、 典型的な場合、 数百以上となり、 代表値を決めるための演算処理 量が膨大になる。 一般に、 ある要因に対する変動を示す係数の数を削減するには、 主成分分析を利用することが有効であることが知られている (例えば、 A.A.Afif i and S.P.Azen "Statistical Analysis, A Computer Oriented Approach," Aca demic Press 1972) 。 統計処理手法として周知の主成分分析によれば音源方向や 被験者による特徴を示す変数の数を削減することができる。 従って、 演算量を削 減することができる (D.J.Kistler and F.L.Wightman "A Model of Head-relate d Transfer Functions Based on Principal Conponents Analysis and Minimum- Phase Reconstruction," Journal of the Acoustical Society of America 91, pp.1637- 1647, 1992)。
以下、 代表値を決定するための基本的手順の一例を説明する。 この手順は、 主 成分分析処理と代表値決定処理に大別される。 まず、 予め測定によって得られた 音響伝達関数 hk(t) を主成分分析する。 但し、 音響伝達関数 hk(t) は時間 tの関 数である。 kは被験者名、 耳 (左右いずれか)及び音源位置による区別をするた めの指標である。 主成分分析は以下のような手順で行われる。
予め測定により得られている全ての音響伝達関数 hk(t) のそれぞれを高速フ一 リエ変換(FFT ) し、 その絶対値の対数値(以下、 単に振幅周波数特性と称す) を特性値 Hk(fi)とする。 次に、 特性値 Hk(fi)の分散 ·共分散行列 Sの要素 Si j を 次式により求める。
Si i = ∑, Hk(fi)Hk(fj)/(n-l) (6)
k=l
但し、 nは音響伝達関数の全数(被験者数 X 2個 {左7右耳 } X音源方向数)、 周波数 fi, ii(i,j=l,2,"',p)は可測定周波数における有限個の離散量である。 p は特性値 Hk (fi)の対象となる振幅周波数特性を表現するベクトル
Figure imgf000011_0001
の次元を示す。 従って、 分散 '共分散行列 Sの大きさは p Xpとなる。 主成分べ クトル(係数べクトル) は分散 ·共分散行列 Sの固有べクトル ,… と して求められる。 即ち
Figure imgf000011_0002
λ qUq (7) の関係がある。 U は主成分 (固有ベク トル) Uqに对応する固有値であり、 固有 値/ U の大きいものほど寄与率が大きくなる。 但し、 序列 qを固有値/ の降順
/1 ≥ 2≥〜≥ p (8) で定める。 ここで、 第 q主成分の寄与率 pgは、 考慮する特性値の集合全体につい て
P
ρ,= λ ,/∑. λ q (9)
q=l
となる。 従って、 累積寄与率 Pm は
Figure imgf000012_0001
と表される。 振幅周波数特性^ニ^ ;!, ,…,^ ^^の選択された!!!個 の主成分 Ul,112,···,Umに対する重みべクトル Wk = [Wkl ,Wk2,"',Wkm]Tを用いて次式 のように表現される。
Figure imgf000012_0002
この重みべク トル wkの次元数 mはべク トル hkの次元数 pより縮小されたものとな る。 但し、 U = [Ul,U2,'",Um]Tである。
次に代表値を決定するための処理方法を説明する。 この発明では、 左右各耳及 び各目的音源位置( , d)について音響伝達関数の代表値として、 それぞれの重み べク トル Wkと全重みべク トルの中心値である中心値べクトルく wz>の間の距離尺度 が最小となる被験者の伝達関数 h(t)を選択する。 重みべク トルく wz>は次式
<wz>=:∑ Wk/n s (12)
k
と与えられる。 ここで、
Figure imgf000012_0003
,<wZ 2>,"',<wzm>]T であり、 は被験者数 である。 ∑の加算は、 全被験者についての同一の目的音源位置と耳に属する kに ついて行う。
例えば、 距離尺度としてマハラノビス汎距離 Dk を用いる。 マハラノビス汎距 離 Dk は次式
Dk2 = (wk-<w2>)T_1(wk-<wz>) (13) で求められる。 ∑— 1は分割 ·共分散行列∑の逆行列を示す。 分割 ·共分散行列の 要素∑i jは、 次のように算出される。
∑ i i = ∑. (wk i -<wz i>) (wk i-<wz j >)/(ns-l) (14)
k
本発明では、 音響伝達関数の振幅周波数特性を重みべク トル Wkを用いて表現す る。 例えば、 D. J. Kistler and F.L. Wig tman, "A Model of Head-related Trans f er Functions Based on Principal Components Analysis and Minimum-Phase Re construction, " Journal of the Acoustical Society of America 91, pp .1637 - 1647 (1992)、 及び、 高橋、 浜田、 日本音響学会講演論文集(I ),2- 6-19, pp .659- 660, 1994, 10- 11によれば、 累積寄与率 Pm が 90%以上で再構成された伝達関数で、 音源信号 x(t)と畳込み演算した信号を受聴した場合、 受聴者は基の伝達関数で畳 み込む受聴した場合と同様に所望の位置に音像定位することが知られている。 そのため、 例えば第 m主成分の重み係数 wk m までの累積寄与率 p m が 90%以上 となるように mを選ぶ。
一方、 伝達関数の振幅周波数特性 hk * を再構成するには、 重みべク トル wk及び 係数行列 Uを用いて
Figure imgf000013_0001
のように再構成できる。 m ^ pであるため、 hk* hk となる。 しかし、 高次の主 成分による寄与が少ないので、 hk* hk と見なせる。 Kistler らの例によれば、 mは 5である。 標本化周波数 48kHz の場合、 pは通例数百以上であるが、 上述の ように主成分分析によれば振幅周波数特性を表現する変数 (一連の係数列) の数 を mまで大きく減じることが可能になる。
振幅周波数特性を表現する変数の数を削減することは、 音響伝達関数の代表値 決定に次の点で好都合である。 第 1に代表値決定のための演算量を削減できる点 である。 式(13)で示されるマハラノビス汎距離を代表値決定のための尺度として 用いる場合、 逆行列演算が必要となる。 このように振幅周波数特性の変数の数を 削減することにより、 距離計算の演算量を著しく削減できる。 第 2に代表値音を 定位させようとする目的位置との対応関係が明白になる点である。 従来から振幅 周波数特性は上下又は前後方向への音像定位の手がかりになっていると考えられ ている。 その反面、 振幅周波数特性と目的位置との定量対応関係が不明瞭であつ た一因は、 振幅周波数特性が多数の変数から構成されていることにある (例えば、 ブラウェルト、 森本、 後藤、 編著「空間音響」鹿島出版会 (1986)参照) 。
本発明においては、 音響伝達関数の代表値として重みべク トル wkと中心値べク トルく wz>間の距離尺度が最小になる音響伝達関数測定値を選択する。 発明者らの 実験によれば、 図 4に示すように、 マハラノビス汎距離 Dk 2 の分布は、 中心値べ クトルく wz>を中心とした自由度 mの χ 2 分布に近似できる。 つまり、 重みべク ト ル wkの分布は中心値付近が最も密になる中心値べク トルく wz>の回りの m次元正規 分布と推定できる。 これは代表値の振幅周波数特性が不特定多数の被験者による 音響伝達関数の振幅周波数特性を近似することを意味する。
理由は、 実測された音響伝達関数を代表値として選択する理由は、 ここに目的 位置への音像定位に寄与する顕著な振幅周波数特性や初期反射や残響の情報が含 まれているためである。 定位に寄与するこれらの成分は、 被験者間の音響伝達関 数の単純平均による代表値生成では、 その平均処理による平滑化によって喪失さ れる傾向にある。 また、 重みベク トル wkだけで音響伝達関数を再構成することは 不可能である。 これは、 重みべク トル wkを算出する際に、 位相周波数特性が考慮 されないからである。 仮に、 中心値ベクトルく wz>から音響伝達関数を再構成する 場合を考える。 位相周波数特性として振幅周波数特性 から合成された最小位 相を用いれば、 初期反射や残響が適切に合成されない恐れがある。 また、 十分に 多数の被験者について音響伝達関数が測定されていれば、 距離を最小とするよう 選択された重みべク トル wkとその中心値べク トルく wz>間の距離尺度 D ks e l はゼ 口に近似すると推定される。
また、 与えられた集合の中で代表値に対応する重みべク トルとの距離尺度 D k_ ma x を最大にする重みベク トル Wk_m a Xについて、 その距離尺度 D k_m a X は中心値 べク トルく WZ>を代表値に対応する重みべク トルとみなすことによって小さくなる。 また、 人間の聴覚において、 振幅周波数特性が類似、 即ち重みベクトル Wkと中心 値ベク トル wz間の距離尺度 D k が小さくなるほど、 目的音源位置への音像定位が 確実になる傾向が見られる。
この発明の好ましい実施例では、 主成分べク トル Wkと中心値べクトルく wz>間の 距離尺度としてマハラノビス汎距離 D k を用いる。 その理由は、 このマハラノビ ス汎距離 D k を算出する過程で、 重みベクトル空間における各主成分間の相関が 考慮されるためである。 図 5はこの出願の発明者らの実験結果であり、 例えば第 1主成分と第 2主成分間の相関値が有意であることを示している。
また、 この発明の他の実施例では、 ある目的音源位置から一方の耳までの音響 伝達関数と、 前記音源位置と左右対称な方位角の音源位置から他方の耳までの音 響伝達関数を同一に定める。 その理由は、 前記両音響伝達関数の振幅周波数特性 が互いに近似することにある。 これは、 各音源位置及び各耳ごとに前記音響伝達 関数の振幅周波数特性を表現する中心値の音源方位角依存性が、 ほぼ左右対称と なることに基づく。
音響伝達関数表の作成とそれを用いた音響信号処理
図 6 Aは、 この発明にかかわる音響伝達関数表の作成と、 その表を使って入力 音響信号に対する処理とを実行する構成を併せて示すプロック図である。予め各 被験者の左右耳について、 音源位置( , d)を変えてそれぞれ測定した tu (k, Θ,d)、 hr (k, , d)及び e^k e^k) が測定データ蓄積部 2 6に蓄積されている。 演算処 理部 2 7は主成分分析部 2 7 Aと、 代表値選択部 2 7 Bと逆畳込み部 2 7 Cと力 ら構成される。 主成分分析部 2 7 Aは、 得られている頭部伝達関数 lu (t), hr (t) 及び外耳道伝達関数 ei (t), er (t)をそれぞれ主成分分析し、 累積寄与率が所定値 (例えば 9 0 % )以上となる周波数特性の主成分をそれぞれ決定し、 その分析結 果から次元数が縮小された重みべクトルをそれぞれ得る。
代表値選択部 2 7 Bは各目的位置 (9と左右各耳の組((0,耳)と表記する) に ついて全被験者から得られている重みべクトルの中心値べクトルく wz>とそれぞれ の重みべクトルとの距離 Dを求め、 最小距離を与えた重みべクトル に対応する 頭部伝達関数 hk (t) を代表値 h*k (t)として選択する。 同様に左右各耳について外 耳道伝達関数についての重みべクトルからその中心値べクトルを求め、 その中心 値べクトルと最も距離の近い重みべクトルに対応する外耳道伝達関数を代表値 e* i , e% として選択する。
逆畳込み部 2 7 Cは、 それぞれの組( ,耳) についての頭部伝達関数代表値 h* (タ)に対し外耳道伝達関数代表値 e* 1 , e*rを逆畳込み演算して頭外音像定位伝達 関数 S l ( ), S r ( )を求め、 記憶部 2 4の表に書き込む。 従って、 測定データ蓄 積部 26のデータからこの発明の方法に従つて各目的位置( Θ, d)に対応する伝達 関数 sr ( ,d),
Figure imgf000016_0001
が決定され、 表として仮想音像定位用音響伝達関数表記 憶部 24に書き込まれる。 但し、 この実施例では簡単のため位置( , d)として音 源の方向 のみを制御し、 距離 dは一定とする。 従ってマイクロホン 22又は図 示してない他の音響信号源からの音響信号 x(t)に対し処理を行う場合、 目的音源 位置設定部 25から設定すべき所望の目的音源位置(方向) を指定する信号 を 伝達関数表記憶部 24に与えて、 対応する頭部伝達関数 s!( ), Sr ( )を読み出 し、 それぞれ音響信号処理部 23 R、 23 Lに設定する。 音響信号処理部 23R、 23 Lはそれぞれ入力音響信号 x(t)に対し伝達関数 Si ( ), sr ( )を畳み込んで その畳込み結果 x(t) x(t)*sr ( )を音響処理された音響信号 yi(t), yr (t)として端子 31 L、 31Rに出力する。 このようにして得られた出力音響信号 yi(t), yr(t) を例えばヘッ ドホン 32で再生すれば、 受聴者に指定された位置 (方向) に音像を定位させることができる。 出力信号 yi(t), yr(t)を録音部 3 3に与えて CD, MD, テープ等に記録する例も考えられる。
図 7は図 6 Aの音響信号処理部 23 R、 23 Lにおいて頭部伝達関数 t (Θ), hr ( )による畳込み演算と外耳道伝達関数 e!, e rによる逆畳込み演算を分割して 行うように構成する例である。 この場合、 仮想音像定位用音響伝達関数表記億部 2 は、 演算処理部 27がこの発明の方法により決定した頭部伝達関数の代表値 hr ( ), ( )を各方向角 に対応した表として記憶する。 従って演算処理部 2 7は図 6 Aにおける演算処理部 27 Aの逆畳込み部 27Cを除去した構成と同じ である。 また、 音響信号処理部 23R、 23 Lはそれぞれ畳込み部 23HBと逆畳込 み部 23ERの組及び頭部伝達関数畳込み部 23HLと逆畳込み部 23ELの組で構成され、 畳込み部 23HR、 23HLには指定された角度方向 Θに対応する頭部伝達関数代表値 hr (Θ), ^( )がそれぞれ伝達関数表記憶部 24が読み出されて設定される。 逆畳 込み部 23ER, 23ELには常時外耳道伝達関数代表値 er, が読み出されており、 畳 込み部 23HR, 23HLからの畳込み演算出力 x(t)*hr ( ), x(t)*lu ( )に対しそれぞ れ er, により逆畳込み演算を行う。 従って式 (3a), (3b)から明らかなように逆 畳込み部 23ER, 23ELの出力は図 6 Aにおける音響信号処理部 23 R、 23Lの出 力 x(t) ), x(t)*sr ( )と結局同じになる。 その他の構成と動作は図 6 Aの 場合と同様である。
図 8は、 図 3と同様に 2個のスピーカ 1 1R, 1 1 Lによる再生系における音 響信号に対し、 この発明による仮想音像定位用音響伝達関数表記憶部 24から設 定された伝達関数 gr ( ), ( )を畳み込む処理を行う構成例を示すと共に、 そ の仮想音像定位用音響伝達関数表を作成するための機能ブロック構成を示してい る。 この再生系においては、 式 (5a), (5b)による伝達関数 gr( ), gl ( )を必要 とするので、 伝達関数記憶部 24には各目的位置 に対応した伝達関数 g* ), g ( )が表として書き込まれている。 演算処理部 27の主成分分析部 27 Aは、 この発明の方法に従つて測定データ蓄積部 26を介して蓄積された頭部伝達関数 hr(t), h!(t)、 実音源鼓膜間伝達関数 err, βπ, βΐΓ) を主成分分析し、 代表 値選択部 27 Bはその分析結果に基づいて各目的方向^と耳(左、 右) の組( 、 耳)毎に中心値べクトルに最も近い重みべクトルを与える頭部伝達関数 hr(t), h i(t)及び実音源鼓膜間伝達関数 err, en, el r, をそれぞれ選択し、 代表値 r ( ),
Figure imgf000017_0001
r, Θ* r! , θ* 1 r , e* ! iとする。 畳込み部 27 Dは、 各方位各 に対応する代表値 h*r( ), h ( )及び代表値 e*r r, e*n, e*n, から Δ h* )、 を求めるための演算
△ h*r ( )={e*" *丄( — e*r l*h ( ) } 及び
Figure imgf000017_0002
をそれぞれ行い、 畳込み部 27 Eで Ae*を求めるための演算
Figure imgf000017_0003
を行い、 逆畳込み部 27Fで逆畳込み演算
Figure imgf000017_0004
ΔΘ*により伝達関数 gr*( ), gl*( )を計算し、 伝達関数表記憶部 24に書き込 む。
図 9は図 8の実施例において式 (5a), (5b)における逆畳込み演算を逆畳込み部 27 Fで行う代わりに、 図 7と同様に再生系で逆畳込みを行うように構成した例 を示す。 即ち、 畳込み部 23HR,23HLは入力音響信号 x(t)に対し、
Ah* i( ^)={en(/9)*hr(/?)-eir(^)*hi(/?)} 及び
Ah*r ( ) ={er r ( ) ( )一 e ( ) *hr(/?)}
をそれぞれ畳込み演算を施し、 それらの出力に対し逆畳込み部 23ER,23ELは Ae*
Figure imgf000018_0001
)-ei r( 0 ) en( 0 )}
によりそれぞれ逆畳込み演算を行い、 それらの出力が編集された音響信号 yr (t), yi (t) としてスピーカ 1 1 R, 1 1 Lにそれぞれ与えられる。 従って、 この実施 例における伝達関数表記憶部 2 4は Δ e*と各目的位置 Θに対応した Δ ^) , Δ h ( ) を表として記憶する。 この伝達関数表を作成する演算処理部 2 7におい ては、 図 8の場合と同様に主成分分析部 2 7 Aによる分析結果に基づ 、て代表値 選択部 2 7 Bにより選択された実音源鼓膜間伝達関数 err, er l, el reilをそれ ぞれ代表値 e*r r,e e*"^*^と決め、 各目的位置 毎に選択された hr ( ), h Λθ、 をそれぞれ代表値 h* r ( /9 ), h ( )と決める。 この実施例ではこのように して決定された代表値を使って更に畳込み演算部 2 7 Dにおいて 毎に
及び
Figure imgf000018_0002
を計算し、 演算部 2 7 Eにおいて
Figure imgf000018_0003
を計算し、 それらを伝達関数表記憶部 2 4に書き込む。
上述の図 8及び図 9の実施例において、 各スピーカと受聴者の各耳が互いに交 わる経路をとる実音源鼓膜間伝達関数 er el rを無視できる場合、 上述の図 6の 実施例と同様な構成を利用できる。 その場合、 外耳道伝達関数 er (t), e i (t)の代 替えとして、 各スピーカと受聴者の各耳が互いに向き合う経路をとる実音源鼓膜 間伝達関数 er r, がそれぞれ扱われる。 このような例は、 各スピーカが受聴者 の各耳にそれぞれ近接して配置される場合に該当する。
上述の図 6A、 8及び 9の実施例では、 測定された音響伝達関数をまず主成分 分析して、 それに基づいて代表値を決定してから逆畳込み演算 (図 6A)、 畳込 み演算と逆畳込み演算(図 8、 図 9 ) を並列に行う場合を示した。 これらの逆畳 込み演算、 或いは畳込み演算を予め行つてから主成分分析に基づく代表値の決定 を行ってもよい。
例えば図 1 0に示すように、 図 6 Aにおける逆畳込み演算部 2 7 Cを主成分分 析部 2 7 Aの入力側に設け、 測定された全ての頭部伝達関数 hr (t), h !:)を外耳 道伝達関数 er, e!で予め逆畳込み演算する、 得られた全ての頭外音像定位伝達関 数 Sr(t), Si(t)を主成分分析し、 それに基づいて代表値 S*r( ), S ( )を決定 する。
或いは図 11に示すように、 図 8の実施例における畳込み演算部 27D, 27 Eと逆畳込み部 27 Fを主成分分析部 27 Aの入力側に設け、 測定された全ての 頭部伝達関数 hr(t), ln(t)及び実音源鼓膜間伝達関数 erlei lから式 (5a), (5b) により伝達関数 gr, を演算する。 それら伝達関数 g giを主成分分析して代表 値 g ( , g ( )を決定してもよい。
或いは図 12に示すように、 図 9の実施例における畳込み演算部 27 D, 27 Eを主成分分析部 27 Aの入力側に設け、 測定された全頭部伝達関数 hr ( ), hi ( )及び実音源鼓膜間伝達関数 erl, から式 (5a), (5b)中の Ahr ( ,
Figure imgf000019_0001
Aeを求める。 それらを主成分分析して代表値 Ah*r(/?), Ah*i( ^ ), Ae*を決定 している。
伝達関数表作成方法
図 13に、 本発明の仮想音響伝達関数表作成方法の一実施例の手順を示す。 本 実施例では、 音響伝達関数の振幅周波数特性の重みべクトルとその中心値べクト ル間の距離尺度としてマハラノビス汎距離を用いる。 以下、 図 13に従って本発 明音響伝達関数の選択方法を説明する。
ステップ S 0 :データ収集
不特定多数の受聴者に対し同じょうに音像定位可能な音響伝達関数表を作成す るため、 例えば図 1 Αの受聴システムで 57名の被験者について、 それぞれ式(3 a)、 (3b)又は(3a';)、 (3b')で与えられる音源 11から左右耳までの頭外音像定位 伝達関数を求める。 音源 11の位置は例えば被験者 12から半径 1.5mの円上に方 向/? =-180° から +180° までを 15° 間隔で 24点を予め決める。 各被験者につい て、 それら 24点のそれぞれの位置に音源 11を設置して頭部伝達関数 ln(t), h r(t)を測定する。 式 (3a'), (3b')による伝達関数 s!(t), Sr(t)を測定する場合は 音源(スピーカ) 11の出力特性 sP(t) も予め 1回測定しておく。 例えば頭外音 像定位伝達関数 s!(t), sr(t)を構成する係数の個数を 2048とし、 サンプリング周 波数 48.0kHz でサンプリングした離散時間関数の入力音源信号 x(t)に対するレス ポンスを測定する。 これによつて 57X24対の hi (t), hr(t)が得られる。 e^t), e r (t)は各被験者について 1回測定するだけである。 これらのデータから式 (3a)、 (3b)又は(3a' )、 (3b' )により 57 X24対の頭外音像定位伝達関数 S l (t), sr (t)が得 られる。 得られた頭外音像定位伝達関数の一例を図 1 4に示す。
ステップ S A :主成分分析
ステップ S 1 : まず、 合計 2736個 (被験者 5 7名 X耳 (左右) 2個 X音源位 置 2 4方向) の頭外音像定位伝達関数を各々高速フーリエ変換 (FFT ) する。 さ らに絶対値をとつたうえで対数値をとることによつて振幅周波数特性 Hk (f ) を得 る。 頭外音像定位伝達関数の振幅周波数特性の一例を図 1 5に示す。 ナイキスト の標本化定理によれば、 標本化周波数 48.0kHz の半値 24.0kHz までの周波数成分 が表現できる。 しかし、 測定用の音源 1 1が安定に発生できる音波の周波数帯域 は 0.2〜15.0kHzである。 そのため、 特性値として周波数帯域 0.2〜; 15.0kHzに対す る振幅周波数特性が用いられる。 標本化周波数 f s=48.0kHzを頭外音像定位伝達関 数を構成する係数の個数 no=2048 で除することで周波数分解能 Δ f (約 23.4Hz ) が求められる。 従って、 各頭外音像定位伝達関数に対応する特性値は P=632 次元 のべク トルで構成される。
ステップ S 2 : 次に、 式 (6) に従って分散 ·共分散行列 Sを求める。 特性値 べク トルの大きさより、 分散 ·共分散行列 Sの大きさは 632 X632となる。
ステップ S 3 : 次に、 式(7 )を満足する分散 ·共分散行列 Sの固有値 及 び固有べク トル (主成分べク トル) uqを求める。 分散 ·共分散行列 Sの序列 qを 式 (8) のように固有値 i q の降順で定める。
ステップ S 4 : 次に、 式(10)を用いて、 固有値 q の大きい順に第 1から第 m主成分までの累積寄与率 P m を求め、 この累積寄与率 p m が 9 0 %以上となる 最小の mを求める。 本実施例では、 累積寄与率 P m は第 1主成分から順に 60.2, 80.3, 84.5, 86.9, 88.9, 90.5 % となった。 従って、 重みべク トル wkの次元 m を 6と定める。 第 1〜第 6主成分べク トル Uqの周波数特性を図 1 6に示す。 各主 成分は特徴的な周波数特性を表している。
ステップ S 5 : 次いで、 各被験者、 耳、 音源方向について得たれた頭外音像 定位伝達関数 s sr )の振幅周波数特性を、 式 (11) に従って、 上記の各主成 分べク トル uqと共役な重みべク トル wkで表現する。 よって、 振幅周波数特性を表 現する自由度を p (=632)から m(=6)に減少できる。 ここで、 式(12)を用いれば、 左右耳、 音源方向 ごとに中心値ベク トルく wz>を求められる。 図 1 7 A, 1 7 B 及び 1 8 A, 1 8 Bは、 左及び右耳において測定された頭外音像定位伝達関数の 第 1及び第 2主成分と共役な重みの中心値及び標準偏差をそれぞれ示す。 但し、 音源の方位角 を被験者正面を 0 ° として反半時計回りとした。 分散分析によれ ば、 重みの音源方向依存性は有意である (各主成分について、 いずれも有意水準 p<0.001となる F値が得られる) 。 つまり、 音響伝達関数に交ォ応する重みべク ト ルは、 被験者によって分散するが、 音源位置に対して有意に異なるといえる。 ま た、 図 1 7 A, 1 7 Bと図 1 8 A, 1 8 Bを比較すれば明らかなように、 左右各 耳で測定された頭外音像定位伝達関数について、 重みの音源方向特性がほぼ左右 ¾称となる結果が得られる。
ステップ S B :代表値決定処理
ステップ S 6 : 次に、 各耳 (左右)、 音源方向 ( ) について全被験者 (k) の重みべク トル wkの中心値べク トルく wz>を式(12)から求める。
ステップ S 7 : 各耳、 各音源方向 について得られた全被験者の重みべク ト ル wkの分散 ·共分散行列∑を式 (14)により求める。
ステップ S 8 : 重みべク トル wkと中心値べク トルく wz〉との間の距離尺度とし て、 式(13)で表されるマハラノ ビス汎距離 D k を用い、 各耳、 各音源方向 につ いて全被験者の重みべク トル wkと中心値べク トルく wz>のマハラノビス汎距離 Dkを 計算ー9 。
ステップ S 9 : マハラノビス汎距離 D k が最小となる重みべク トル wkに対応 する頭部伝達関数 hk (t) を代表値として選択し、 図 6 Aの記憶部 2 4に耳、 音源 方向 と対応させて記憶する。 このようにして全ての耳、 音源方向 についての 選択された頭外音像定位伝達関数を音響伝達関数の代表値として得られる。
同様にして、 外耳道伝達関数 er, eiについてもステップ S 1〜S 9を実行して 一組の外耳道伝達関数を代表値 e , e として定め、 記憶部 2 4に記憶する。 図 1 9に、 頭外音像定位伝達関数の代表値に対応する重みべク トル(Selected L/R)及び疑似頭による頭外音像定位伝達関数に对応する重みべク トル(D Head L/ R)についてマハラノビス汎距離を示す。 代表値に対するマハラノビス汎距離はい ずれも 1.0以下となった。 この疑似頭による頭外音像定位伝達関数も式 (11)を使 つて求めたものである。 但し主成分べクトル Uqの算出にあたり疑似頭による頭外 音像定位伝達関数を対象として含めていない。 つまり主成分べクトル Uq及び中心 値ベクトルく wz>は前記被験者 5 7名に関するものである。 図 1 9によれば、 疑似 頭による(D Head L/R)についてのマハラノビス汎距離は、 典型的な場合 2.0 前後、 最大 3.66、 最小 1.21となった。
図 2 0に、 選択された当該音像定位伝達関数の被験者番号 (1〜57) を示す。 こ の図 2 0は、 全音源方向 もしくは同一の耳について、 必ずしも同一の被験者が 選択されないことを示している。
各耳、 音源方向について、 人頭によって測定された音響伝達関数に対するマハ ラノビス汎距離の二乗値 D 2 の分布は図 4に示すように自由度 6の χ 2 分布に近 似される。 累積分布 P(D2)
P (D2 ) = oD 2 Z 62 (t)dt (16)
を用いて、 結果を解析する。 上記に挙げたマハラノビス汎距離を用いれば、 P(l . 02) =0.0144, P(1.212 )=0.0378, P (2.02) =0.3233, P(3.662)=0.9584となる。 即ち、 疑似頭による頭外音像定位伝達関数の振幅周波数特性は多数の受聴者に関するも のより大きく偏するといえる。 つまり、 従来から代表値として用いられる疑似頭 による音響伝達関数よりも、 本発明によつて選択された音響伝達関数の方が多数 の受聴者による振幅周波数特性を近似する。 このようにして作成されたこの発明 による音響伝達関数表を使用することにより、 不特定多数の受聴者に対して目的 音源方向 (上述の例では受聴者を中心とする半径 d=l .5m円周上)への音像定位が 可能となる。 上述ではデータ収集において音源 1 1は受聴者を中心とする半径 1. 5mの円周上に配置した場合、 音響伝達関数表を作成したが、 さらに他の半径 d2, ds, …の円周上に音源 1 1を配置した場合についても同様の測定を行い図 1 3の 処理に従つて音響伝達関数を選択し、 図 6 Bに示すように音源方向 Θのみならず 半径 dごとに音響伝達関数を分類する表を作成してもよい。 この場合、 音像定位 位置を半径方向に制御する手がかりを与える。
上述の音響伝達関数表作成方法の一例として、 一音源位置から一方の耳までの 音響伝達関数と、 前記音源位置と左右対称な方位角の音源位置から他方の耳まで の音響伝達関数を近似的に同じであるとみなし、 同一に決定する。 例えば、 ステ ップ S 9で音源位置方位角 30° から左耳までの選択された音響伝達関数を、 音 源位置方位角一 30° から右耳までの音響伝達関数としても採用する。 本方法の 有効性は、 図 17A, 17B及び図 18A, 18 Bに示すように、 左右各耳で測 定された頭外音像定位伝達関数 ln(t), hr(t)について、 音源の方位角 に関して ほぼ左右射称な中心値べクトルが得られることに基づいている。 本方法によれば、 選択に必要な音響伝達関数 h(t)の数が半減され、 従って全 h(t)の測定に要する時 間、 及び表作成のために要する時間を短縮でき、 かつ選択された音響伝達関数の 記憶に必要な情報量を半減できる。
図 6 A及び図 13を参照して説明した伝達関数表の作成手順では、 全ての測定 された頭部伝達関数 In (t), hr(t)及び e!(t), er(t)をステップ S 1で高速フ一リ ェ変換して得られたそれぞれの周波数特性値を主成分分析する場合を示した。 別 実施例として測定された全ての頭部伝達関数 1η(ΐ), hr(t)と、 外耳道伝達関数 ei (t), er(t)とを用いて式 (3a), (3b)に従って予め求めた頭外音像定位伝達関数 Sl
(t), S t)を用いてもよい。 それらの頭外音像定位伝達関数 Si (t), Sr(t)を図 1
3と同様の手順で主成分分析して代表値 s (t), s*r(t)を決定し、 伝達関数表を 作成する。 或いは、 図 8の 2つのスピーカによる再生系( トランスオーラル) の 場合は、 図 11に示したように式 (5a), (5b)で与えられる伝達関数 g!(t), gr(t) を測定データ hi(t), hr(t), err(t), en(t), eir(t), en(t)から予め計算し、 その gl(t), gr(t)を主成分分析して代表値 g*!(t), g (t)の表を作成してもよい。 或いは、 図 9の場合は、 図 12に示すように lu ), hr(t), err(t), en(t), ei r(t), e (t)から式 (5a), (5b)の Ahr(t), Ahi(t), Ae(t)を予め計算し、 これ らの中から選択された代表値 Ah*r(t), Ah*i(t), ΔΘ*を用いて伝達関数表を作 成する。 ·
図 21は上述のように作成した仮想音像定位用音響伝達関数表を使用した音響 信号編集システムの別実施例を示す。 図 6 Α及び図 7では 1系統の入力音響信号 x(t)に対して処理を行う音響信号編集システムの例を示したが、 図 21の実施例 では 2系統の音響信号 Xi(t) 及び x2(t) を入力とする例である。 音響信号処理部 23Li, 23Ri, 23L2, 23R2から出力された音響信号をそれぞれの入力系統にわたつ て左右各チャネルごとに加算し、 1系統の左右 2チヤネルの音響信号として出力 する。
入力端子 211, 212には例えば録音スタジオのマイクロホンからの音響信号 Xl, χ2、 あるいはすでに録音されている CD, MD, テープ等から再生された音響信 号 χΐ5 χ2が入力される。 これら音響信号 Xi, χ2はそれぞれ左右各チャネルに分岐 され、 それぞれ左右音響信号処理部 23 , 23^及び 23L2, 23R2に与えられ、 頭外 音像定位伝達関数表より設定された音響伝達関数 Si ( , Sr ( 及び Sl ( 2), sr ( 2) が畳み込まれる。 ここで、 θ 1 は各々第 1及び第 2系統の音声(音 響信号 Χ1, χ2) に対する目的位置(ここでは方向) を示す。 音響信号処理部 23 , 23^及び 23L2, 23R2の出力は左右加算部 28L, 28Rで対応するチャネルの音響信号 が加算され、 出力端子 31L,31Rからヘッドホン 32あるいは CD, MD, テ一プ 等への録音装置 33に左右チャネル音響信号 yi(t), yr(t)として与えられる。
目的音源位置設定部 25は、 指定された目的位置信号 , 2を出力し音響伝 達関数表記憶部 24に与えられる。 音響伝達関数表記憶部 24には前述のように して作成された仮想音像定位用音響伝達関数表が記憶されており、 与えられた目 的位置信号 , 2に対応する頭外音像定位伝達関数 Si ( i), Sr( ^ l), Sl( ^ 2), sr ( 2) を読み出し、 音響信号処理部 23Li, 23Ri, 23L2, 23R2にそれぞれ設定す る。 これにより不特定の受聴者は系統 1、 2の音声(音響信号 X, χ2) に対して 各々目的位置 , 2への音像定位を実現する。
図 21の実施例において頭外音像定位伝達関数 Si ( , Sr(/9i),
Figure imgf000024_0001
s 2)の代わりに音響伝達特性 g ( , g*r(<? , g 2), g*r ( 2)を用い、 出力音響信号 yl5 yrをスピーカで再生しても同様に系統 1、 2の音声に対して各 々位置 θ 2への定位を不特定の受聴者に実現することができる。
頭外音像定位伝達関数 Si ( ), Sr( ^ l), Sl( ^ 2), Sr ( 2) 又は伝達特性 g ( ^ l), g*r ( i), g ), g ( 2) の設定に関わる処理が逐次に行われれば、 移動する音像を知覚させる音響信号を実時間で編集できる。 音響伝達関数表記億 部 24としては RAM又は ROM等の記憶媒体を用いることができる。 該記憶媒体に は、 とり得る全ての音源位置 にそれぞれ対応した頭外音像定位伝達関数 s!( ),
S r ( )又は伝達特性 g* ), g* r ( を予め記憶しておく。 図 21の実施例では図 6 Aの場合と同様に多数の被験者について測定した頭部 伝達関数 ^(t), hr(t)と外耳道伝達関数 ei(t), er(t)から決定した代表値から予 め頭外音像定位伝達関数 s!(t), Sr(t)を逆畳込みにより計算し、 そのデータに基 づいて各音源位置(音源方向 ) に対応する代表値を S^t), Sr(t)から選択して 仮想音響伝達関数表を作成する場合を示したが、 図 7と同様に頭外音像定位伝達 関数 Si(t), Sr(t)を計算しないで、 測定した頭部伝達関数 In (t), hr(t)から各音 源位置 (音源方向 ) に対応する代表値を図 6Aと同様な手順で選択して表を作 成しても良い。 その場合は、 全ての被験者について測定した e!(t), er(t)から図 6Aの手順で 1組の e (t), e*r(t)を代表値として選択しておき、 表に保存して おく。 この仮想音像定位用音響伝達関数表を用い音響信号を編集する場合、 図 1 Bにおける畳込み部 16 Lを図 2に示すように頭部伝達関数畳込み部 16 HLと外 耳道伝達関数逆畳込み部 16 ELの縦続接続によって構成し、 同様に畳込み部 16 Rを頭部伝達関数畳込み部 16HRと外耳道伝達関数逆畳込み部 16ERの縦続接続 により構成すればよいことは式(3a), (3b)から明らかである。
ところで、 一般に、 あるフィルタ係数の逆フィルタ係数が存在するためには、 そのフィルタ係数が最小位相条件を満足しなければならないことは周知である。 つまり、 任意の係数で逆畳込み演算 (逆フィルタ処理) を行った場合、 一般に解 (出力) が発散する。 図 6 A及び 8の演算処理部 27の逆畳込み部 27 C, 27 Hにおいて実行される式 (3a), (3b), (5a), (5b)による逆畳込み演算についても 同様のことがいえ、 逆畳込み演算の解が発散する場合がある。 図 7及び 9の逆畳 込み部 23Εβ, 23ELについても同様である。 このような解の発散が起こらないよう な逆フィルタ係数を形成するためには、 最小位相課された係数で逆フィルタを構 成すれば'よいこと力 s、例えば .V.Oppenheim, et al "Digital Signal Processing, " PRENTICE - HALL, INC.1975に示されている。 この発明においても、 このような逆 畳込み演算における発散を回避するためには、 予め最小位相化された係数を用い て逆畳込み演算を行えばよい。 最小位相化の対象として音刺激の提示に用いられ る音源から受聴者の各耳までの音響伝達特性を反映した係数を用いる。 例えば、 式 (3a), (3b)における ei(t), er(t)又は式 (3a'), (3 )における s^t e^t), s P*er(t)s もしくは式 (5a), (5b)における ΔΘ 又は sP(t)*Aeがこれに該当する。 対象となる係数が 2の累乗個の数値(フィルタ長: n ) で構成されるとき、 最 小位相化演算(MPを表すことにする) は高速フーリエ変換(FFT) を用いて次 のように表される。
MP{h}=FFr1(exp{FFT(W(FFr1(loglFFT(h)l))} (17) ここで、 FFT—1 は逆高速フーリエ変換、 W(A)はフィルタ係数ベクトル Aに対する 窓関数を示す。 ただし、 1.番目及び η/2+l番目の Aをそのままの値とする。 また、 2番目から n/2番目までの Aを 2倍し、 n/2+2番目以降の Aを零とする。
このような最小位相化が施されても、 演算対象となる係数の振幅周波数特性は 変化しない。 また、 両耳間時間差は主に頭部伝達関数 HRTFにおいて出現する。 結 果として、 音像定位の手がかりと考えられる雨耳間時間差、 レベル差及び周波数 特性は最小位相化による影響を受けない。
この様な逆畳込み演算における発散が起こらないように図 6 A〜 8の実施例に 最小位相化を適用した場合の演算処理部 27の構成例を以下に説明する。
図 22は図 6 Aにおける演算処理部 27に最小位相化を適用した場合を示す。 演算処理部 27内に最小位相化部 27 Gが設けられ、 代表値選択部 27 Bで決定 された外耳道伝達関数代表値 e* e を最小位相化処理する。 これによつて得ら れた最小位相化代表値 MP{e }, MP{e*Jを逆畳込み部 27Cに与えて、 式 (3a), (3b)で表される逆畳込み演算を行う。 得られた頭外音像定位伝達関数 s* ^), s は図 6 Aの伝達関数表記憶部 24に書き込まれる。
図 23は図 22の実施例の変形実施例であり、 主成分分析を行う前に、 測定デ ―タ蓄積部 26で蓄積された外耳道伝達関数 (t), er (t)を最小位相化部 27 G で最小位相化処理する。 得られた最小位相化伝達関数 MP{er}, MP{e により、 全 ての目的位置に対する頭部伝達関数 hr (t), hi (t)を逆畳込み部 27 Cで各被験者 毎に逆畳込み演算する。 求められた頭外音像定位伝達関数 Sr(t), Sl(t)を主成分 分析して各目的位置 Θ毎に決定された代表値 s*八 Θ), s*! ( )を図 6Aの伝達関 数表記憶部 24に書き込む。
図 24は図 7における演算処理部 27に最小位相化法を適用した場合である。 図 7における演算処理部 27内に最小位相化部 27Gが設けられ、 代表値選択部 27 Bで決定された外耳道伝達関数代表値 e , e*rを最小位相化処理する。 これ によって得られた最小位相化代表値 MPie*!}, MP{e*r}は代表値選択部 27Bで決 定された頭部伝達関数代表値 Θ), h*! ( )と共に図 7の伝達関数表記憶部 2 4に書き込まれる。
図 25は図 24の実施例の変形実施例である。 主成分分析を行う前に、 測定デ ―タ蓄積部 26で蓄積された外耳道伝達関数 (t), er (t)を最小位相化部 27 G で最小位相化処理する。 得られた最小位相化外耳道伝達関数 MP{er}, MP{ei}は測 定データ蓄積部 2 6で蓄積された頭部伝達関数 hr ( t) , hi (t)と並行して主成分分 析部 27 Bで分析され、 その分析結果に基づいてそれぞれの代表値が代表値選択 部 27 Bで決定される。 得られた最小位相化代表値 MPie* }, MP{e*r}と頭部伝達 関数代表値 h* Λθ), h* ( )は共に図 7の伝達関数表記憶部 24に書き込まれる。 図 26は図 8における演算処理部 27に最小位相化法を適用した場合であり、 図 8における演算処理部 27内に最小位相化部 27 Gが設けられ、 畳込み演算部 27Eで計算された Δ
Figure imgf000027_0001
i*err-eir*en}を最小位相化部 27 Hで最小位相化 処理する。 これによつて得られた最小位相化代べクトル ΜΡ{Δθ*}を逆畳込み部 2 7Fに与えて、 畳込み演算部 27Dからの Ah*r(/9), Ah*! ( )に対しそれぞれ 式 (5a), (5b)における逆畳込み演算を行う。 得られた頭外音像定位伝達関数 g*r (Θ), g*! ( )は図 8の伝達関数表記憶部 24に書き込まれる。
図 27は図 26の変形実施例であり、 図 25における畳込み演算部 27D, 2 7E、 最小位相化部 27 H及び逆畳込み部 27 Fの一連の処理を、 主成分分析を 行う前の全測定頭部伝達関数 hr(t), hi (t)外耳道伝達関数 err (t), θπ (ΐ), θΐΓ (t), e (t)に対して実行する。 それによつて得られた伝達関数 gr(t), g! (t)に対 し主成分分析を行って、 その分析結果に基づいて伝達関数の代表値 g ( ), g*l
( )を決定し、 図 8の伝達関数表記憶部 24に書き込む。
図 28は図 9における演算処理部 27に最小位相化法を適用した場合であり、 図 9における演算処理部 27内に最小位相化部 27Hが設けられ、 畳込み演算部 27Eで計算された Δ
Figure imgf000027_0002
i*er r-eir*en}を最小位相化部 27 Hで最小位相化 処理する。 これによつて得られた最小位相化代べクトノレ MP{Ae*}は、 畳込み演算 部 27Dからの Ah*r. ( ), Δΐι*! ( )と共に図 9の伝達関数表記憶部 24に書き 込まれる。 図 2 9は図 2 8の変形実施例であり、 図 2 7における畳込み演算部 2 7 D, 2 7 E及び最小位相化部 2 7 Hの一連の処理を、 主成分分析を行う前の全測定頭部 伝達関数 hr (t), In (t)外耳道伝達関数 er r (t), er i (t), e (t), en (t)に対して 実行する。 それによつて得られた A hr (t), 111 (1 )及び1^{ 6} に対し主成分分 析を行って、 その分析結果に基づいて伝達関数の代表値 Δ 1ι ( ), Δ 1 ( )及 び ΜΡ{ Δ e*}を決定し、 図 9の伝達関数表記憶部 2 に書き込む。
図 3 0は図 2 9の変形実施例であり、 最小位相化部 2 7 Hを代表値選択部 2 7 Bの出力側に設け、 決定された代表値 A e*を最小位相化している点が図 2 9と異 なるだけである。
発明の効果
以上説明したように、 この発明の仮想音像定位用音響伝達関数表作成方法にお いては、 多数の被験者について測定された音響伝達関数の中から主成分分析に基 づいて各目的音源位置につき左右 1組の音響伝達関数を少ない自由度で決定する ことができる。 これによつて作成された伝達関数表を使えば、 不特定の受聴者に 対し正しく音像定位できるように音響信号を処理することが可能となる。
また、 振幅周波数特性の距離尺度としてマハラノビス汎距離を用いれば、 分散 又は共分散の絶対値に関わらず音響伝達関数の確率分布の粗密を考慮して音響伝 達関数を決定できる。
さらに、 1音源位置から一方の耳までの音響伝達関数と、 前記音源位置と左右 対称な方位角の音源位置から他方の耳までの音響伝達関数を同一に決定するれば、 選択に必要な音響伝達関数の量、 又は、 選択された音響伝達関数の記憶に必要な 情報量を半減できる。
この発明による伝達関数表の作成方法において、 実音源から各耳までの最小位 相化された音響伝達関数を反映した係数を用 t、て逆畳込み演算を行うことにより、 頭外音像定位伝達関数又は伝達特性、 ひいては音響信号の発散を回避することが できる。

Claims

請求の範囲
1 . 仮想音像定位用音響伝達関数表の作成方法であり、 以下のステップを含む:
(a) 複数の被験者について、 複数の目的音源位置のそれぞれから左右耳に至る 予め測定された音響伝達関数を主成分分析してそれぞれの音響伝達関数に対応す る重みべクトルを得て、
(b) 各上記目的音源位置及び各左右耳についての上記重みべクトルの中心値べ クトルを求め、
(c) 各上記目的音源位置及び各左右耳について、 上記中心値ベクトルと各重み べクトルの距離尺度を求め、
(d) 各上記目的音源位置について、 上記距離尺度が最小となる重みベクトルに 対応する音響伝達関数を上記音源位置についての代表値と決定し、 仮想音像定位 用伝達関数表とする。
2. 請求項 1の仮想音像定位用音響伝達関数表作成方法において、 上記ステップ (d) は決定された上記代表値を仮想音像定位用音響伝達関数として上記目的音源 位置及び各左右耳に対応させて記憶媒体に書き込むステップを含む。
3. 請求項 1の仮想音像定位用音響伝達関数表の作成方法において、 上記距離尺 度としてマハラノビス汎距離を用いる。
4. 請求項 1の仮想音像定位用音響伝達関数表の作成方法において、 上記目的音 源位置の 1つから一方の耳までの音響伝達関数代表値と、 上記目的音源位置の 1 つと被測定者に対して左右対称な方位角の目的音源位置から他方の耳までの音響 伝達関数代表値を同じ値に決定する。
5. 請求項 1の仮想音像定位用音響伝達関数表作成方法において、 上記予め測定 された音響伝達関数は上記目的音源位置から左右各耳の鼓膜に至る頭部伝達関数 及び上記左右各耳の外耳道伝達関数であり、 上記代表値として上記頭部伝達関数 の上記目的音源位置及び各耳毎の代表値と上記外耳道伝達関数の代表値を定める。
6. 請求項 5の仮想音像定位用音響伝達関数表作成方法において、 上記方法は各 目的音源位置及び各耳に対応した上記頭部伝達関数代表値に対する外耳道伝達関 数代表値の逆畳込み演算に基づいて頭外音像定位伝達関数を計算するステップを 含むことを特徴とする。
7. 請求項 6の仮想音像定位用音響伝達関数作成方法において、 上記逆畳込み演 算に先立ち上記外耳道伝達関数を予め最小位相化するステップを含む。
8. 請求項 1の音像定位用伝達関数表作成方法において、 上記予め測定された音 響伝達関数は上記 1個の目的音源位置から左右各耳の鼓膜に至る左右合計 2個の 系数列からなる頭部伝達関数と、 左右 2個の再生用音源のそれぞれから上記左右 耳の鼓膜に至る合計 4個の系数列からなる音響伝達特性であり、 それぞれ上記 2 個の頭部伝達関数を h!(t), hr(t)及び上記 4個の音響伝達特性を eil(t), ei r(t), en(t), err(t)で表すと、 上記代表値は各上記目的音源位置毎の上記 2個の頭部 伝達関数の代表値 h*i(t), h*r(t)と上記 4個の音響伝達特性それぞれの代表値 e* n(t), e*i r(t), e*n(t), e* (t)であり、 上記ステップ(d) における上記仮想 音像定位用音響伝達関数として
,t) = {e%r(t)*h*i(/9 ,t)-e% i(t)*h*r(/? ,t)}
/{e*n (t)*e*r r (t)-e*i r (t)*e*n (t)}
gr(^ ,t) = {e*n(t)*h*r(/9 ,t)-e* i r(t)*h*i( ^ ,t)}
/{e*n(t)*e* rr(t)-e* i r(t)*e i(t)}
を演算して得られる伝達特性 g!(t), gr(t)を上記仮想音像定位用音響伝達関数と して記憶媒体に書き込み、 ここで/は逆畳込み演算を表す。
9. 請求項 8の仮想音像定位用音響伝達関数表作成方法において、 上記左右各耳 の外耳道伝達関数の代替えとして、 上記各再生音源から各耳に至る左右 2個の係 数列からなる音響伝達関数 i(t),err (t)を使用する。
10. 請求項 1又は 2の仮想音像定位用音響伝達関数表作成方法において、 上記 予め測定された音響伝達関数は上記目的音源位置から左右各耳の鼓膜に至る左右 合計 2個の系数列からなる頭部伝達関数と、 左右 2個の再生用音源のそれぞれか ら上記左右耳の鼓膜に至る合計 4個系数列からなる音響伝達特性であり、 それぞ れ上記 2個の頭部伝達関数表を ^(t), hr(t)及び上記 4個の音響伝達特性を en (t), eir(t), en(t), err(t) で表すと、 上記代表値は各上記目的音源位置毎の 上記 2個の頭部伝達関数の代表値 ! ), h*r(t)と上記 4個の音響伝達特性のそ れぞれの代表値 e*n(t), e*ir(t), e*n(t), e r(t)であり、 上記ステップ (d) における上記仮想音像定位用音響伝達関数として
Ah* r ( ^ ,t) = {e* r r(t)*h* l ( ^ (t)-e* r l(t)*h* r ( ? ,t)}
Figure imgf000031_0001
Ae*(t)-{e*n(t)*e r(t)-e* i r(t)*e* r i(t)}
を演算して得られる伝達特性 Ah*r( ), A (0), ΔΘ*を上記音像定位用左右 伝達関数として記憶媒体に書き込む。
11. 請求項 1、 3又は 4の仮想音像定位用音響伝達関数表作成方法における、 上記仮想音像定位用音響伝達関数を生成する演算に含まれる逆畳込み演算におい て、 上記音響伝達関数のうち少なくとも 1からなる逆畳込み演算で作用する音響 伝達特性を表す系数列を決め最小位相化処理した系数列を用いる。
12. 請求項 1の仮想音像定位用音響伝達関数表作成方法において、 予め測定さ れた左右各耳の外耳道伝達関数を最小位相化処理するステップを含み、 上記最小 位相化処理された左右各耳の外耳道伝達関数により予め各目的音源位置から左右 各耳に至る頭部伝達関数に対しそれぞれ逆畳込み演算し頭外音像定位伝達関数を 得て、 上記頭外音像定位伝達関数を上記音響伝達関数とする。
13. 請求項 8の仮想音像定位用音響伝達関数表作成方法において、 上記伝達特 性 (t), gr (t)を得るための上記逆畳込み演算を行う前に系数列
{e* H(t)*e*rr(t)— e*lr(t)*e*r l(t)}
を最小位相化処理するステップを含む。
14. 請求項 10の仮想音像定位用音響伝達関数表作成方法において、 上記記憶 媒体に書き込む前に、 上記代表値として得た上記伝達特性 Ae*(t) を最小位相化 処理するステップを含む。
15. 請求項 1〜14のいずれかの方法で作成された仮想音蔵置位用音響伝達関 数表。
16. 請求項 1〜14のいずれかの方法で作成された仮想音像定位用音響伝達関 数表を記録することを特徴とする記憶媒体製造方法。
17. 請求項 1〜12のいずれかの方法によって作成された仮想音像定位用音響 伝達関数表が記録された記憶媒体。
18. 請求項 1、 3、 4、 6、 7、 8、 9、 11、 12又は 13において作成さ れた仮想音像定位用音響伝達関数表から指定された目的音源位置に対応する左右 各チャネルに対応した音響伝達関数をそれぞれ読みだし、 各系統の入力モノラル 音響信号に対しそれぞれ畳込み演算を施すことによりステレオ音響信号を生成す る系統を少なくとも 1系統有する音響信号編集方法。
19. 請求項 5の方法で作成された仮想音像定位用音響伝達関数表から畳込み演 算に用いられる係数として、 指定された目的音源位置 Θ及び左右各チャネルに対 応した上記頭部伝達関数 Θ ,t), r ( , t)と畳込み演算に用レ、られる係数と して左右各耳に対応した上記外耳道伝達関数 e (t), e*r(t)を読み出し、 各系統 の入力モノラル音響信号に対し上記係数を用いて左右各チャネル毎に畳込み演算 及び逆畳込み演算を縦列に施す系統を少なくとも 1系統有する。
20. 請求項 6又は 7の方法で作成された仮想音像定位用音響伝達関数表から畳 込み演算に用いられる係数として指定された目的音源位置 及び左右各耳に対応 した上記伝達特性 Ah (^,t), Ah*r ( , t)と逆畳込み演算に用いられる係数と して上記伝達特性 Ae*(t) を読み出し、 各系統の入力モノラル音響信号に対し上 記伝達特性 Δ h*! ( , t), Δ r ( , t)を用いて左右各チャネル毎に畳込み演算及 び上記伝達特性 Ae*(t) を用いて各チャネルともに逆畳込み演算を縦列に施す系 統を少なくとも 1系統有する。
PCT/JP1996/002772 1995-09-26 1996-09-26 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法 WO2004103023A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US08/849,197 US5982903A (en) 1995-09-26 1996-09-26 Method for construction of transfer function table for virtual sound localization, memory with the transfer function table recorded therein, and acoustic signal editing scheme using the transfer function table

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP24815995 1995-09-26
JP7/248159 1995-09-26
JP7/289864 1995-11-08
JP28986495 1995-11-08

Publications (1)

Publication Number Publication Date
WO2004103023A1 true WO2004103023A1 (ja) 2004-11-25

Family

ID=26538631

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1996/002772 WO2004103023A1 (ja) 1995-09-26 1996-09-26 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法

Country Status (2)

Country Link
US (1) US5982903A (ja)
WO (1) WO2004103023A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107197415A (zh) * 2016-06-10 2017-09-22 西马特尔有限公司 改进为电话呼叫提供双声道声音的电子设备的计算机性能

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826616B2 (en) 1998-10-30 2004-11-30 Science Applications International Corp. Method for establishing secure communication link between computers of virtual private network
JP2001028799A (ja) * 1999-05-10 2001-01-30 Sony Corp 車載用音響再生装置
US6421447B1 (en) * 1999-09-30 2002-07-16 Inno-Tech Co., Ltd. Method of generating surround sound with channels processing separately
WO2002092182A1 (en) * 2001-05-11 2002-11-21 Koninklijke Philips Electronics N.V. Operation of a set of devices
US7684577B2 (en) * 2001-05-28 2010-03-23 Mitsubishi Denki Kabushiki Kaisha Vehicle-mounted stereophonic sound field reproducer
JP3435156B2 (ja) * 2001-07-19 2003-08-11 松下電器産業株式会社 音像定位装置
US7720229B2 (en) * 2002-11-08 2010-05-18 University Of Maryland Method for measurement of head related transfer functions
MXPA06011361A (es) * 2004-04-05 2007-01-16 Koninkl Philips Electronics Nv Codificador de canales multiples.
JP2005341384A (ja) * 2004-05-28 2005-12-08 Sony Corp 音場補正装置、音場補正方法
JP3985234B2 (ja) * 2004-06-29 2007-10-03 ソニー株式会社 音像定位装置
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US7472041B2 (en) * 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
EP1941400A1 (en) * 2005-10-17 2008-07-09 Koninklijke Philips Electronics N.V. Method and device for calculating a similarity metric between a first feature vector and a second feature vector
KR100862663B1 (ko) * 2007-01-25 2008-10-10 삼성전자주식회사 입력되는 신호를 공간상의 위치로 음상 정위하는 방법 및장치
EP1962559A1 (en) * 2007-02-21 2008-08-27 Harman Becker Automotive Systems GmbH Objective quantification of auditory source width of a loudspeakers-room system
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization
JP5031840B2 (ja) * 2007-08-20 2012-09-26 パイオニア株式会社 音像定位予測装置及び音像定位制御システム並びに音像定位予測方法及び音像定位制御方法
FR2943793B1 (fr) * 2009-03-30 2011-04-22 Supelec Procede de controle de la directivite et la polarisation de distributions coherentes de champ dans un milieu reverberant.
US8428269B1 (en) * 2009-05-20 2013-04-23 The United States Of America As Represented By The Secretary Of The Air Force Head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
EP2489206A1 (fr) * 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
WO2012168765A1 (en) * 2011-06-09 2012-12-13 Sony Ericsson Mobile Communications Ab Reducing head-related transfer function data volume
US10171926B2 (en) * 2013-04-26 2019-01-01 Sony Corporation Sound processing apparatus and sound processing system
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
EP2928210A1 (en) 2014-04-03 2015-10-07 Oticon A/s A binaural hearing assistance system comprising binaural noise reduction
US9843859B2 (en) 2015-05-28 2017-12-12 Motorola Solutions, Inc. Method for preprocessing speech for digital audio quality improvement
JP6561718B2 (ja) * 2015-09-17 2019-08-21 株式会社Jvcケンウッド 頭外定位処理装置、及び頭外定位処理方法
GB2546504B (en) * 2016-01-19 2020-03-25 Facebook Inc Audio system and method
WO2023043963A1 (en) * 2021-09-15 2023-03-23 University Of Louisville Research Foundation, Inc. Systems and methods for efficient and accurate virtual accoustic rendering

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850812A (ja) * 1981-09-21 1983-03-25 Matsushita Electric Ind Co Ltd オ−デイオ信号伝送回路
JPH03280700A (ja) * 1990-03-29 1991-12-11 Koichi Kikuno 3次元立体定位情報の抽出方法と装置
JPH0453400A (ja) * 1990-06-20 1992-02-20 Matsushita Electric Ind Co Ltd 移動感発生装置
JPH06315200A (ja) * 1993-04-28 1994-11-08 Victor Co Of Japan Ltd 音像定位処理における距離感制御方法
JPH07143598A (ja) * 1993-11-12 1995-06-02 Toa Corp 2次元音像移動の方向制御装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02200000A (ja) * 1989-01-27 1990-08-08 Nec Home Electron Ltd ヘッドフォン受聴システム
EP0563929B1 (en) * 1992-04-03 1998-12-30 Yamaha Corporation Sound-image position control apparatus
US5404406A (en) * 1992-11-30 1995-04-04 Victor Company Of Japan, Ltd. Method for controlling localization of sound image
US5598478A (en) * 1992-12-18 1997-01-28 Victor Company Of Japan, Ltd. Sound image localization control apparatus
JPH06225399A (ja) * 1993-01-27 1994-08-12 Nippon Telegr & Teleph Corp <Ntt> 音源移動感付与方法
US5438623A (en) * 1993-10-04 1995-08-01 The United States Of America As Represented By The Administrator Of National Aeronautics And Space Administration Multi-channel spatialization system for audio signals
JPH08272380A (ja) * 1995-03-30 1996-10-18 Taimuuea:Kk 仮想3次元空間音響の再生方法および装置
FR2738099B1 (fr) * 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
US5742689A (en) * 1996-01-04 1998-04-21 Virtual Listening Systems, Inc. Method and device for processing a multichannel signal for use with a headphone

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850812A (ja) * 1981-09-21 1983-03-25 Matsushita Electric Ind Co Ltd オ−デイオ信号伝送回路
JPH03280700A (ja) * 1990-03-29 1991-12-11 Koichi Kikuno 3次元立体定位情報の抽出方法と装置
JPH0453400A (ja) * 1990-06-20 1992-02-20 Matsushita Electric Ind Co Ltd 移動感発生装置
JPH06315200A (ja) * 1993-04-28 1994-11-08 Victor Co Of Japan Ltd 音像定位処理における距離感制御方法
JPH07143598A (ja) * 1993-11-12 1995-06-02 Toa Corp 2次元音像移動の方向制御装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107197415A (zh) * 2016-06-10 2017-09-22 西马特尔有限公司 改进为电话呼叫提供双声道声音的电子设备的计算机性能

Also Published As

Publication number Publication date
US5982903A (en) 1999-11-09

Similar Documents

Publication Publication Date Title
WO2004103023A1 (ja) 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法
KR100416757B1 (ko) 위치 조절이 가능한 가상 음상을 이용한 스피커 재생용 다채널오디오 재생 장치 및 방법
US9918179B2 (en) Methods and devices for reproducing surround audio signals
JP3913775B2 (ja) 録音及び再生システム
US6574339B1 (en) Three-dimensional sound reproducing apparatus for multiple listeners and method thereof
US6078669A (en) Audio spatial localization apparatus and methods
US7231054B1 (en) Method and apparatus for three-dimensional audio display
US7489788B2 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener
US20150131824A1 (en) Method for high quality efficient 3d sound reproduction
JP2002159100A (ja) 2チャネル・ステレオ・フォーマットの左及び右のチャネル入力信号を左及び右のチャネル出力信号に変換する方法及び信号処理装置
KR100647338B1 (ko) 최적 청취 영역 확장 방법 및 그 장치
JP2000050400A (ja) 左,右両耳用のオーディオ信号を音像定位させるための処理方法
CN113170271A (zh) 用于处理立体声信号的方法和装置
WO2000019415A2 (en) Method and apparatus for three-dimensional audio display
JP2013504837A (ja) 完全オーディオ信号のための位相レイヤリング装置および方法
Pulkki et al. Spatial effects
Otani et al. Binaural Ambisonics: Its optimization and applications for auralization
JPH09191500A (ja) 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法
JP2005157278A (ja) 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム
JP2004538669A (ja) 2つのスピーカを用いたサランド音の創成方法
Gardner Spatial audio reproduction: Towards individualized binaural sound
KR100275779B1 (ko) 5채널 오디오 데이터를 2채널로 변환하여 헤드폰으로 재생하는 장치 및 방법
Jot et al. Binaural concert hall simulation in real time
Mickiewicz et al. Spatialization of sound recordings using intensity impulse responses
US20240056735A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 08849197

Country of ref document: US

AK Designated states

Kind code of ref document: A1

Designated state(s): US