WO2021251182A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021251182A1
WO2021251182A1 PCT/JP2021/020436 JP2021020436W WO2021251182A1 WO 2021251182 A1 WO2021251182 A1 WO 2021251182A1 JP 2021020436 W JP2021020436 W JP 2021020436W WO 2021251182 A1 WO2021251182 A1 WO 2021251182A1
Authority
WO
WIPO (PCT)
Prior art keywords
transfer function
speaker
sound
listening area
signal processing
Prior art date
Application number
PCT/JP2021/020436
Other languages
English (en)
French (fr)
Inventor
雄太 瀧田
ウェイシャン リャオ
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021251182A1 publication Critical patent/WO2021251182A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices and methods, and programs that enable a more appropriate indoor transfer function to be obtained.
  • the reverberation component generated by reflection on the wall surface of the room (room) propagates to the listening area.
  • Non-Patent Document 1 Generally, in an indoor transfer function using a plurality of microphones, that is, a method for estimating transfer characteristics, the same algorithm is applied in all frequency bands (see, for example, Non-Patent Document 1).
  • the drive signal of the speaker generated from the indoor transfer function becomes unstable or the formed sound due to the discrepancy between the measurement environment and the reproduction environment and the speaker installation method.
  • the field may be distorted.
  • This technology was made in view of such a situation, and makes it possible to obtain a more appropriate indoor transfer function.
  • the signal processing device of one aspect of the present technology has the listening area from the speaker estimated based on the observation signal obtained by collecting the measured sound output from the speaker by a plurality of microphones in the listening area.
  • the transmission function acquisition unit that acquires the transmission functions up to and the transmission function is used to generate the drive signal of the sound to be reproduced by the speaker
  • the sound reproduction environment of the speaker is viewed from the listening area.
  • the transmission function correction unit for correcting the acquired transfer function is provided.
  • the signal processing method or program of one aspect of the present technology is estimated from the speaker, which is estimated based on the observation signal obtained by picking up the measured sound output from the speaker by a plurality of microphones in the listening area.
  • the transmission function up to the listening area is acquired and the drive signal of the sound reproduced by the speaker is generated based on the transmission function, the sound reproduction environment is biased toward the presence of the speaker when viewed from the listening area. If there is a reproduction environment, or if the transfer function is different from that at the time of estimating the transfer function, the step of correcting the acquired transfer function is included.
  • transmission from the speaker to the listening area estimated based on observation signals obtained by picking up the measured sound output from the speaker with a plurality of microphones in the listening area.
  • the reproduction environment of the sound is a reproduction environment in which the presence of the speaker is biased when viewed from the listening area. If there is, or if the transfer function is in a different reproduction environment from when the transfer function is estimated, the acquired transfer function is corrected.
  • This technology uses a method suitable for each frequency bin from a signal obtained by collecting sound with multiple microphones, and is an indoor transmission function (transmission characteristic) from each speaker to the sound collection position, that is, a direct wave.
  • the performance of sound field control is improved by estimating the component and the reverberation component. In other words, it enables the formation of a desired sound field with higher accuracy.
  • This technology can be applied to any sound field control including, for example, wave field synthesis and spatial noise canceling.
  • Sound field control is a general term for technologies for controlling how sound is transmitted in real space as intended by the user, using multi-channel synchronized speakers.
  • the space of the drive signal of the speaker is similar to that each speaker used for sound field formation generates a spherical wave that propagates isotropically around the speaker position.
  • the filter is calculated.
  • the environment in which the sound field is actually controlled is often indoors, and the reverberation generated by reflections on the floor, ceiling, walls, etc. of the room in addition to the direct wave component is added to the indoor transfer function of the actual speaker. Ingredients are also included.
  • the indoor transfer function from the speaker to the listening area that is, from the speaker to each microphone is estimated by using a method suitable for each frequency bin.
  • the indoor transfer function obtained by estimation is corrected to suit the reproduction environment. As a result, an indoor transfer function suitable for the reproduction environment can be obtained, and more accurate sound field control can be realized.
  • a plurality of microphones 11-1 to 11-M are arranged in the listening area R11 to be controlled by the sound field.
  • microphones 11-1 and microphones 11-M are coded.
  • microphones 11-1 and microphones 11-M are also simply referred to as microphones 11.
  • a speaker array 12 composed of a plurality of speakers is arranged on the upper side.
  • the speaker array 12 When sound is output from the speaker array 12, not only the direct wave of the sound but also the reflected wave (reverberation sound) generated by the reflection on the wall or the like is observed in the listening area R11.
  • the indoor transfer function which is the sound transfer characteristic of the sound from each speaker to the microphone 11 in the space including the listening area R11, that is, from each speaker to the listening area R11 is estimated, and the obtained indoor transfer function is the content or the like. It is corrected according to the playback environment.
  • the chamber transfer function is estimated by an estimation algorithm suitable for each frequency band, that is, for each frequency bin.
  • the first correction is a correction related to the arrival direction information indicating the arrival direction of the sound, taking into consideration the shape of the arrangement of a plurality of speakers at the time of sound field control. This is because there are directional components whose sound field cannot be controlled depending on the shape of the speaker arrangement, and correction is performed to eliminate (remove) the uncontrollable arriving direction component of the indoor transfer function. ..
  • the second correction is a correction related to complex amplitude information that takes into consideration the change in sound velocity, that is, the propagation speed of sound waves. This is because the speed of sound in the room is generally different between when the indoor transfer function is estimated (measured) and when the content is actually played back, and the difference in the speed of sound is appropriate for the indoor transfer function obtained by estimation. Corrections are made to reflect.
  • the chamber transfer function changes with the speed of sound.
  • Such correction for complex amplitude information is performed, for example, when the sound velocity, that is, the indoor transfer function is different from that at the time of estimation (measurement) of the indoor transfer function.
  • FIG. 2 is a diagram showing a configuration example of an embodiment of a sound field control system to which the present technology is applied.
  • the parts corresponding to the case in FIG. 1 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the sound field control system shown in FIG. 2 includes microphones 11-1 to 11-M, a speaker array 12, and a signal processing device 41.
  • FIG. 2 the state at the time of estimating the indoor transfer function is shown on the left side in the figure, and the state at the time of reproducing the content is shown on the right side in the figure.
  • the space such as the room where the listening area R11 exists and the arrangement of the speaker array 12 in the space are the same at the time of estimating the indoor transfer function and at the time of content reproduction.
  • M microphones 11 are arranged in the listening area R11 which is the target of sound field control in a space such as a room, and the indoor transmission function output by the speaker array 12 by the microphones 11 is arranged.
  • the sound for measurement (measurement sound) is collected.
  • the observation signals obtained as a result are acquired by the signal processing device 41, and the indoor transfer function of the listening area R11 is estimated based on those observation signals.
  • the signal processing device 41 has an acquisition unit 51, a transfer function estimation unit 52, a transfer function acquisition unit 53, a transfer function correction unit 54, and a drive signal generation unit 55.
  • the acquisition unit 51 acquires observation signals from each of the M microphones 11 and supplies them to the transfer function estimation unit 52.
  • the transfer function estimation unit 52 estimates the indoor transfer function based on the observation signal supplied from the acquisition unit 51, and supplies the estimation result to the transfer function acquisition unit 53.
  • the transfer function estimation unit 52 has a low frequency estimation unit 71 that estimates the indoor transfer function for the low frequency band, that is, a low frequency bin, and a high frequency estimation unit 71 that estimates the indoor transfer function for the high frequency band, that is, the high frequency bin. It has a frequency estimation unit 72.
  • the chamber transfer function is estimated by different methods (estimation algorithms).
  • the transfer function acquisition unit 53 acquires the indoor transfer function for each frequency bin from the transfer function estimation unit 52 and supplies it to the transfer function correction unit 54.
  • the transfer function correction unit 54 corrects the indoor transfer function supplied from the transfer function acquisition unit 53 according to the environment (reproduction environment) at the time of reproducing the content, and supplies it to the drive signal generation unit 55.
  • the drive signal generation unit 55 is a drive signal of each speaker constituting the speaker array 12 based on the corrected indoor transmission function supplied from the transmission function correction unit 54 and the sound source signal for reproducing the sound of the content. Is generated and supplied to the speaker array 12.
  • the speaker array 12 is, for example, a multi-channel speaker, that is, a multi-channel speaker array in which speakers of a plurality of channels are arranged in a predetermined shape.
  • a multi-channel speaker that is, a multi-channel speaker array in which speakers of a plurality of channels are arranged in a predetermined shape.
  • it is possible to output different sounds from each of the plurality of speakers. In other words, it is possible to control each of a plurality of speakers independently.
  • the speaker array 12 drives the speaker based on the drive signal supplied from the drive signal generation unit 55, and outputs a sound based on the drive signal.
  • the sound of the content is reproduced in the listening area R11 in which the user U11 who is the listener is located.
  • a desired sound field for reproducing the sound of the content is formed.
  • the acquisition unit 51 to the drive signal generation unit 55 are provided in one signal processing device 41 .
  • these processing blocks may be provided in different devices.
  • the acquisition unit 51, the transfer function estimation unit 52, and the transfer function acquisition unit 53 to the drive signal generation unit 55 may be provided in different signal processing devices.
  • the observation signal obtained by the microphone 11 and the drive signal of the speaker array 12 are considered in the frequency domain.
  • the speed of sound is defined as c
  • the angular frequency is defined as ⁇
  • the above-mentioned listening area R11 will also be referred to as a listening area ⁇ .
  • the transfer function estimation unit 52 estimates the indoor transfer function, which is the transfer characteristic from each speaker of the speaker array 12 to the listening area ⁇ (microphone 11), based on the observation signals obtained by each of the plurality of microphones 11.
  • the direction of arrival of the sound output from the speaker of the speaker array 12 to the listening area R11, that is, the listening area ⁇ is described as ⁇ .
  • the arrow Q11 represents one direction of arrival of the sound output from the speaker to the listening area R11, and such a direction of arrival, more specifically, a vector indicating the direction of arrival is described as the direction of arrival ⁇ . And.
  • the sound output from the speaker can arrive from a plurality of arrival directions ⁇ . Therefore, in the transfer function estimation unit 52, the complex is generated for each frequency of the sound arriving from each arrival direction ⁇ , that is, for each wave number k.
  • the amplitude p ( ⁇ , k) is estimated as the chamber transfer function. In particular, in the following description, it is assumed that a sound pressure microphone is used as the microphone 11.
  • the indoor transfer function estimation algorithm is selected for each frequency bin, and the indoor transfer function is estimated independently for each frequency bin according to the selection result.
  • the number M of the microphone 11 required for estimating the indoor transfer function is proportional to the radius R of the listening area ⁇ and the angular frequency ⁇ of the signal.
  • the number M of the microphone 11 used for the measurement and the radius R of the listening area ⁇ are regarded as constants.
  • the estimation algorithm (estimation method) of the chamber transfer function for each frequency bin is selected according to the frequency bin (angular frequency ⁇ ) of the observed signal, in other words, the frequency of the sound based on the drive signal (frequency bin).
  • the basic equation of the sound field without special assumptions, that is, the estimation method based on the Helmholtz equation is used.
  • the Translation matrix is used to estimate the chamber transfer function.
  • the estimation method used is used. That is, an estimation method for estimating the chamber transfer function by super-resolution technology based on compressed sensing is used.
  • the sound field u (r, k) (where r ⁇ ⁇ ) formed when the speaker of the speaker array 12 is driven is shown in the following equation (1). Satisfy the Helmholtz equation.
  • r represents a position in the listening area ⁇ , that is, a vector indicating the position.
  • the position of the mth microphone 11 among those M microphones is r m, and the sound picked up by the microphone 11 at that position r m.
  • the observation signal in the frequency domain obtained in is described as y m ( ⁇ ).
  • observation signal y m ( ⁇ ) can be expressed by the following equation (2).
  • ⁇ m ( ⁇ ) represents a noise component superimposed on the observation signal y m ( ⁇ ) of the m-th microphone 11.
  • j ⁇ (kr) represents the spherical Bessel function
  • Y ⁇ ⁇ (r') represents the spherical harmonics.
  • r ⁇ r'with a predetermined constant as ⁇ .
  • ⁇ ⁇ ⁇ (k) represents the expansion coefficient
  • N represents the order (maximum order) of the spherical harmonics.
  • ⁇ ⁇ ⁇ (r m, k) in equation (4) corresponds to the ([nu, mu) elements of the translation matrix T '(r m, k) .
  • the translation matrix is described in detail in, for example, "P. A. Martin,” Multiple Scattering: Interaction of Time-Harmonic Waves with N Obstacles ", Cambridge University Press, New York, 2006.”
  • y ( ⁇ ) is a vector consisting of M observation signals y m ( ⁇ ) for a predetermined angular frequency ⁇ , and the mth component of the vector y ( ⁇ ) is y m ( ⁇ ). ).
  • T (k) is the (m, ⁇ , ⁇ ) component is the ⁇ ⁇ ⁇ (r m, k ) is a matrix
  • alpha (k) the first ( ⁇ , ⁇ ) component expansion coefficient alpha [nu mu It is a vector that is (k).
  • T (k) ⁇ represents the pseudo-inverse matrix of the matrix T (k).
  • the vector ⁇ '(k) thus obtained that is , the estimated value of the expansion coefficient ⁇ ⁇ ⁇ (k) which is an element of the vector ⁇ '(k) (hereinafter, also referred to as the expansion coefficient ⁇ ' ⁇ ⁇ (k). ),
  • the complex amplitude p ( ⁇ , k) of the sound arrival component from the arrival direction ⁇ into the listening area ⁇ can be obtained.
  • the complex amplitude p ( ⁇ , k) can be obtained by calculating the following equation (7).
  • ( ⁇ ) H represents Hermitian transposition
  • w represents a vector in which the ( ⁇ , ⁇ ) th component is w ⁇ ⁇ * shown in the following equation (8).
  • ( ⁇ ) * represents the complex conjugate.
  • the estimated value of the vector ⁇ (k) obtained by calculating the equation (6) based on the observation signal y m ( ⁇ ) is obtained, and the equation (7) is calculated based on the estimated value.
  • the complex amplitude p ( ⁇ , k) of any arrival direction ⁇ can be estimated.
  • the complex amplitude p ( ⁇ , k) of each arrival direction ⁇ as the chamber transfer function is obtained by estimation by the estimation method using the Translation matrix described above.
  • an indoor transfer function consisting of the arrival direction information indicating the arrival direction ⁇ and the complex amplitude information indicating the complex amplitude p ( ⁇ , k) can be obtained.
  • observation signal y m ( ⁇ ) is developed as shown in the following equation (10) by using the overcomplete plane wave basis shown in the following equation (9).
  • ⁇ l (
  • 2 1) represents a candidate for the discretized wavefront arrival direction ⁇ .
  • D (k) is a matrix whose (m, l) th component is the plane wave basis shown in Eq. (9), and x (k) has a complex amplitude p ( ⁇ l) whose l th component is a complex amplitude.
  • K) is a vector. Further, it is assumed that the plane wave basis, that is, the number L of the arrival direction ⁇ is sufficiently large.
  • the amplitude and phase of each arrival direction ⁇ are determined by solving the minimization problem shown in the following equation (12). That is, by calculating the equation (12), the complex amplitude p ( ⁇ , k) of each arrival direction ⁇ as the chamber transfer function can be obtained.
  • q ⁇ 1 is usually used to induce sparsity for the vector x (k).
  • Many algorithms have been proposed for solving minimization problems with such l q norm regularity, for example, "SF Cotter and BD Rao anf K. Engan and K. Kreutz-Delgado," Sparse solutions to linear inverse problems with It is described in detail in multiple measurement vectors, "IEEE TSP, vol. 53, no. 7, 2005.”
  • the complex amplitude p ( ⁇ , k) of each arrival direction ⁇ as the chamber transfer function is obtained by estimation by the estimation method using the sparse optimization described above. That is, an indoor transfer function including the arrival direction information indicating the arrival direction ⁇ and the complex amplitude information indicating the complex amplitude p ( ⁇ , k) can be obtained.
  • the reverberation component is estimated as information in the arrival direction ⁇ .
  • each arrival direction ⁇ is obtained from the observation signals y m ( ⁇ ) obtained by each of the plurality of microphones 11. It is possible to estimate the complex amplitude p ( ⁇ , k) of.
  • the estimation method in the transfer function estimation unit 52 is not limited to the estimation method described above, and is a method capable of estimating each arrival direction ⁇ and the complex amplitude p ( ⁇ , k) of those arrival directions ⁇ . If so, any other method such as an estimation method by kernel interpolation may be used.
  • the transfer function correction unit 54 corrects the indoor transfer function obtained by estimation, that is, the complex amplitude p ( ⁇ , k) in each arrival direction ⁇ , according to the reproduction environment.
  • the speaker arrangement shape constituting the speaker array 12 is, for example, a shape in which the speakers are arranged in a straight line in front of the listening area R11 as shown in FIG. 4, or a rectangular shape so as to surround the listening area R11 as shown in FIG.
  • Various shapes are conceivable, such as a shape in which speakers are arranged side by side.
  • FIGS. 4 and 5 the parts corresponding to those in FIG. 2 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • various speaker arrangement shapes of the speaker array 12 can be considered, but in reality, as shown in FIG. 5, there is a case where the speakers are arranged so as to surround the listening area R11, that is, the listening area ⁇ . Not many.
  • the arrival direction ⁇ in which the sound field can be controlled by using the speaker as shown in FIG. 6 is a straight line L11 and a straight line. Limited to directions within the angle range S between L12. In other words, when viewed from the listening area ⁇ , the direction in which the speakers constituting the speaker array 12 are present is limited.
  • FIG. 6 the same reference numerals are given to the portions corresponding to those in FIG. 2, and the description thereof will be omitted as appropriate.
  • the range of the direction (angle) from the direction indicated by the straight line L11 to the direction indicated by the straight line L12 is the angle range S, and is arbitrary within the angle range S when viewed from the listening area ⁇ .
  • the sound field When forming an arbitrary sound field in the listening area ⁇ , if the direction (angle) included in the angle range S is the arrival direction ⁇ , that is, the sound arrives only from the arrival direction ⁇ included in the angle range S. If so, it is possible to form the sound field with high accuracy (the sound field can be controlled).
  • the spatial filter of the drive signal of the speaker array 12 becomes unstable due to the estimation error of the sound component from the uncontrollable arrival direction ⁇ . That is, the difficulty of the prediction calculation for obtaining the spatial filter becomes high, and it becomes difficult to obtain an appropriate spatial filter (solution).
  • the component of the arrival direction ⁇ outside the angle range S is a part of the reverberation component generated in the room.
  • the transfer function correction unit 54 is outside the angle range S as shown in the following equation (13). A correction is made to the chamber transfer function so that the value of the complex amplitude p ( ⁇ , k) in the arrival direction ⁇ is zero.
  • Such a correction shown in the equation (13) is a correction in which the value of the complex amplitude p ( ⁇ , k) in the arrival direction ⁇ in which the speaker of the speaker array 12 does not exist when viewed from the listening area ⁇ is set to zero, that is, the control is uncontrollable. It is a process of thinning out possible reverberation components.
  • the speakers of the speaker array 12 are often arranged along the wall surface of the room, and in the formed sound field, the sound from the arrival direction ⁇ within the angle range S.
  • the components of are dominant.
  • the correction for making the value of the complex amplitude p ( ⁇ , k) of the arrival direction ⁇ outside the angle range S zero that is, the correction for the arrival direction information.
  • the correction of the indoor transfer function regarding the arrival direction information is not limited to the correction according to the shape of the speaker arrangement of the speaker array 12, and may be performed in consideration of other information.
  • the speaker arrangement shape may be any shape such as arranging the speakers side by side in an L shape. ..
  • the speakers of the speaker array 12 are arranged side by side in an L shape, since there is an arrival direction ⁇ in which the speaker of the speaker array 12 does not exist when viewed from the listening area ⁇ , the complex amplitude p ( ⁇ , k) with respect to the arrival direction ⁇ . A correction is made to make the value zero.
  • the speakers of the speaker array 12 are arranged side by side in a square shape so as to surround the listening area ⁇ as shown in FIG. 5, the speaker of the speaker array 12 does not exist when viewed from the listening area ⁇ . Since there is no direction ⁇ , no correction of the chamber transfer function with respect to the arrival direction ⁇ is performed.
  • the speed of sound corresponds to the propagation speed of sound waves, and is one of the parameters that contributes to complex amplitude information among the chamber transfer functions.
  • the speed of sound depends on the temperature, humidity, atmospheric pressure, etc. of the room and needs to be treated as a time-varying parameter. Generally, the speed of sound is different when observing a complex amplitude p ( ⁇ , k) using a plurality of microphones 11, that is, when estimating a chamber transfer function and when actually playing back content.
  • the complex amplitude p'( ⁇ , k) represents the corrected complex amplitude p ( ⁇ , k).
  • e in the equation (14) represents the ratio (sound velocity ratio) between the sound velocity at the time of measuring (estimating) the indoor transfer function and the sound velocity at the time of content reproduction.
  • the wave number k of the complex amplitude p ( ⁇ , k) is corrected by the change in the speed of sound based on the sound velocity ratio e, and the corrected complex amplitude p'( ⁇ , k) is obtained. ing.
  • Such correction may be performed when the content reproduction environment by the speaker array 12 in the listening area ⁇ is a reproduction environment in which the sound velocity is different from that at the time of estimating the indoor transfer function.
  • the sound velocity at the time of measuring the indoor transfer function and the sound velocity at the time of content reproduction are measured by some method, and the sound velocity ratio e is obtained.
  • the transfer function correction unit 54 can obtain a more appropriate indoor transfer function by calculating the above equation (14) based on the sound velocity ratio e and correcting the indoor transfer function in consideration of the change in sound velocity. can.
  • the sound velocity ratio e may be calculated by the transfer function correction unit 54, or may be calculated by a processing block different from the transfer function correction unit 54 and supplied to the transfer function correction unit 54. ..
  • the correction of the complex amplitude information is not limited to the correction according to the change in sound velocity, but also takes into consideration other information such as the change in the material of the wall surface in the room due to the curtain or the like and the change in the non-linearity of the speaker of the speaker array 12. You may be asked.
  • Acquisition unit 51 in step S11 and supplies it to the transfer function estimating portion 52 acquires the observation signal obtained by sound pickup by a plurality of the microphones 11 y m ( ⁇ ).
  • the speaker constituting the speaker array 12 outputs a sound (measured sound) based on the drive signal for measuring the indoor transfer function supplied from the drive signal generation unit 55.
  • a plurality of speakers constituting the speaker array 12 output sound one by one, and each microphone 11 obtains an observation signal y m ( ⁇ ) for each speaker.
  • y m ( ⁇ ) the observation signal
  • Low frequency estimation unit 71 in step S12 based on the supplied observed signal y m (omega) from the acquisition unit 51, estimates the room transfer function of the low frequency.
  • the low frequency estimation unit 71 described above is based on the observation signal y m ( ⁇ ) in which the angular frequency ⁇ is equal to or less than a predetermined threshold value, that is, the observation signal y m ( ⁇ ) in the frequency bin whose frequency is equal to or less than a predetermined value.
  • the complex amplitude p ( ⁇ , k) of each arrival direction ⁇ is estimated, and the estimation result is used as a low-frequency chamber transfer function.
  • High-frequency estimating unit 72 in step S13 based on the supplied observed signal y m (omega) from the acquisition unit 51, estimates the room transfer function of the high frequency.
  • the angular frequency omega is greater than a predetermined threshold observed signal y m (omega), i.e. on the basis of the observed signal y m of greater frequency bins than the predetermined value frequency (omega), the above equation ( By performing the calculation in 12), the complex amplitude p ( ⁇ , k) in each arrival direction ⁇ is estimated, and the estimation result is used as a high-frequency chamber transfer function.
  • a predetermined threshold observed signal y m i.e. on the basis of the observed signal y m of greater frequency bins than the predetermined value frequency (omega)
  • the transfer function estimation unit 52 outputs each chamber transfer function obtained in steps S12 and S13. Further, when the indoor transfer function is estimated, the sound velocity at that time is also measured, and the measurement result is supplied to the transfer function correction unit 54.
  • the following steps S14 to S18 are subsequently performed when the content is reproduced. Further, at the time of content reproduction, the sound velocity at the time of content reproduction in the listening area ⁇ is measured, and the measurement result is supplied to the transfer function correction unit 54.
  • step S14 the transfer function acquisition unit 53 acquires the transfer function from the transfer function estimation unit 52 and supplies it to the transfer function correction unit 54.
  • step S15 the transfer function correction unit 54 corrects the arrival direction information for the indoor transfer function supplied from the transfer function acquisition unit 53.
  • the transfer function correction unit 54 has a complex amplitude of the arrival direction ⁇ outside the angle range S as shown in the above equation (13) with respect to the angle range S determined with respect to the speaker arrangement shape of the speaker array 12 during content reproduction.
  • a correction is made to the chamber transfer function so that the value of p ( ⁇ , k) is zero.
  • step S15 when the reproduction environment is a reproduction environment in which the presence of the speakers is biased when the speakers constituting the speaker array 12 are viewed from the listening area ⁇ , that is, the arrival direction ⁇ in which the speakers do not exist. It may be done when there is.
  • step S16 the transfer function correction unit 54 corrects the complex amplitude information with respect to the chamber transfer function obtained by the correction in step S15.
  • the transfer function correction unit 54 calculates the sound velocity ratio e based on the sound velocity at the time of estimating the supplied indoor transfer function and the sound velocity at the time of content reproduction. Then, the transfer function correction unit 54 corrects the indoor transfer function obtained in step S15 based on the sound velocity ratio e by calculating the above equation (14), and obtains the final transfer function.
  • step S16 may be performed when the content reproduction environment is a reproduction environment in which the sound velocity is different between the time of estimating the indoor transfer function and the time of content reproduction.
  • the transfer function correction unit 54 supplies the indoor transfer function thus obtained to the drive signal generation unit 55.
  • step S17 the drive signal generation unit 55 generates a drive signal based on the indoor transfer function supplied from the transfer function correction unit 54.
  • the drive signal generation unit 55 generates a spatial filter based on the indoor transfer function supplied from the transfer function correction unit 54, and filters the sound source signal for reproducing the content by the spatial filter to perform the drive signal. To generate.
  • step S18 the drive signal generation unit 55 supplies the generated drive signal to each speaker of the speaker array 12 and drives the speaker to output sound from each speaker. As a result, a desired sound field is formed in the listening area ⁇ , and the sound of the content is reproduced.
  • the sound field control system estimates the indoor transfer function by an estimation method different for each frequency bin, and corrects the indoor transfer function according to the speaker arrangement shape and sound velocity change of the speaker array 12.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 8 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • a transmission function acquisition unit that acquires a transmission function from the speaker to the listening area, which is estimated based on observation signals obtained by collecting the measured sound output from the speaker with a plurality of microphones in the listening area.
  • the reproduction environment of the sound is a reproduction environment in which the presence of the speaker is biased when viewed from the listening area, or the above.
  • a signal processing device including a transfer function correction unit that corrects the acquired transfer function when the transfer function is in a reproduction environment different from that at the time of estimating the transfer function.
  • the signal processing apparatus according to any one of (1) to (9), further comprising a transfer function estimation unit that estimates the transfer function based on the observed signal.
  • the signal processing device The transfer function from the speaker to the listening area, which is estimated based on the observation signal obtained by collecting the measured sound output from the speaker with a plurality of microphones in the listening area, is acquired.
  • the reproduction environment of the sound is a reproduction environment in which the presence of the speaker is biased when viewed from the listening area, or the above.
  • the transfer function from the speaker to the listening area which is estimated based on the observation signal obtained by collecting the measured sound output from the speaker with a plurality of microphones in the listening area, is acquired.
  • the reproduction environment of the sound is a reproduction environment in which the presence of the speaker is biased when viewed from the listening area, or the above.
  • 11-1 to 11-M 11 microphone, 12 speaker array, 41 signal processing device, 51 acquisition unit, 52 transfer function estimation unit, 53 transfer function acquisition unit, 54 transfer function correction unit, 55 drive signal generation unit, 71 low Frequency estimation unit, 72 High frequency estimation unit

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より適切な室内伝達関数を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、スピーカから受聴エリアまでの伝達関数を取得する伝達関数取得部と、伝達関数に基づいてスピーカにより再生する音の駆動信号を生成する際に、音の再生環境が、受聴エリアから見てスピーカの存在に偏りがある再生環境である場合、または伝達関数の推定時とは伝達関数が異なる再生環境である場合、取得された伝達関数を補正する伝達関数補正部とを備える。本技術は音場制御システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より適切な室内伝達関数を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
 広い受聴エリアにおける音場制御において、音響再生に用いるスピーカから受聴エリアへの伝達関数を計測することは、音場制御の精度面において重要である。
 例えば室内でスピーカを駆動させると、受聴エリアにはスピーカからの直接波成分に加え、室(部屋)の壁面等での反射によって生じる残響成分が伝搬する。
 一般的に複数のマイクロフォンを用いた室内伝達関数、すなわち伝達特性を推定する手法では、全周波数帯域において同一のアルゴリズムが適用される(例えば、非特許文献1参照)。
W. Jin and W. B. Kleijn, "Theory and design of multizone soundfield reproduction using sparse methods," IEEE/ACM TASLP, vol.23, no. 12, 2015.
 しかしながら、上述した技術では、再生時の環境に対して適切な室内伝達関数を得ることができないことがあった。
 例えば、推定した室内伝達関数をそのまま用いてしまうと、測定環境と再生環境の齟齬やスピーカの設置方法により、室内伝達関数から生成されるスピーカの駆動信号が不安定になったり、形成された音場に歪みが生じたりすることがある。
 本技術は、このような状況に鑑みてなされたものであり、より適切な室内伝達関数を得ることができるようにするものである。
 本技術の一側面の信号処理装置は、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得する伝達関数取得部と、前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する伝達関数補正部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正するステップを含む。
 本技術の一側面においては、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数が取得され、前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数が補正される。
室内伝達関数の推定について説明する図である。 音場制御システムの構成例を示す図である。 受聴エリアと到来方向について説明する図である。 スピーカアレイのスピーカ配置例を示す図である。 スピーカアレイのスピーカ配置例を示す図である。 スピーカ配置形状と制御可能な到来方向について説明する図である。 室内伝達関数推定処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、複数のマイクロフォンで収音を行うことにより得られた信号から、各周波数ビンに適した方式を用いて、各スピーカから収音位置までの室内伝達関数(伝達特性)、すなわち直接波成分および残響成分を推定することで音場制御の性能を向上させるものである。換言すれば、より精度よく所望の音場を形成することができるようにするものである。
 また、本技術では、室内伝達関数を特徴づける2つの要素である到来方向および複素振幅(振幅と位相)に着目し、再生環境に応じて室内伝達関数を補正するようにした。音場形成時には、適宜補正された室内伝達関数に基づいてスピーカの駆動信号が生成される。このようにすることで、より適切な室内伝達関数を得ることができ、高精度に所望の音場を形成することができる。
 このような本技術は、例えば波面合成や空間ノイズキャンセリングなどを含む任意の音場制御に適用することができる。
 音場制御は、多チャネルの同期されたスピーカを用いて、ユーザが意図した通りに現実空間上の音の伝わり方を制御するための技術の総称を指す。
 音場制御に関する研究については、例えば1993年に提案されたWFS(Wave field synthesis)に始まり、近年も多くの手法が提案されている。
 なお、WFSについては、例えば「A. J. Berkhout and D. de Vries and P. Vogel, “Acoustic control by wave field synthesis,” J. Acoust. Soc. Am., vol. 93, no. 5, 1993.」などに詳細に記載されている。
 音場制御の際、多くの場合、残響成分を無視したうえで、音場形成に用いるスピーカがそれぞれスピーカ位置を中心に等方的に伝わる球面波を生成すると近似してスピーカの駆動信号の空間フィルタが計算される。
 しかし、実際に音場制御する環境は室内であることが多く、実際のスピーカの室内伝達関数には直接波成分に加えて、室の床、天井、壁などでの反射等によって生成される残響成分も含まれている。
 したがって、精度の高い音場制御を行うためには、複数のマイクロフォンを用いて各スピーカについて室内伝達関数を推定(測定)することが、スピーカの指向性や残響成分が考慮されるため、有効である。
 ところが、全周波数帯域で最も性能が高い推定アルゴリズム(推定手法)は存在せず、室内伝達関数の推定手法によって推定精度のよい周波数帯域は異なる。
 そこで本技術では、マイクロフォンで収音して得られる観測信号に基づき、スピーカから受聴エリア、すなわちスピーカから各マイクロフォンへの室内伝達関数を、周波数ビンごとに適した手法を用いて推定することで、より適切な室内伝達関数を得ることができるようにした。また、推定により得られた室内伝達関数に対して、再生環境に適した補正を行うようにした。これにより、再生環境に対して適切な室内伝達関数を得ることができ、より高精度な音場制御を実現することができる。
 本技術では、例えば図1に示すように、音場制御の対象となる受聴エリアR11内に複数のマイクロフォン11-1乃至マイクロフォン11-Mが配置される。
 なお、図1では図を見やすくするため、一部のマイクロフォンにのみ符号が付されている。以下では、マイクロフォン11-1乃至マイクロフォン11-Mを特に区別する必要のない場合、単にマイクロフォン11とも称することとする。
 また、受聴エリアR11の図中、上側には複数のスピーカからなるスピーカアレイ12が配置されている。スピーカアレイ12から音が出力されると、受聴エリアR11では、その音の直接波だけでなく、壁等での反射により生じる反射波(残響音)も観測される。
 この例では、受聴エリアR11を含む空間における各スピーカからマイクロフォン11まで、すなわち各スピーカから受聴エリアR11までの音の伝達特性である室内伝達関数が推定され、得られた室内伝達関数がコンテンツ等の再生環境に応じて補正される。
 すなわち、まず、周波数帯域ごと、つまり周波数ビンごとに適した推定アルゴリズムで室内伝達関数が推定される。
 次に、得られた室内伝達関数に対して、適宜、再生環境を考慮した以下の2種類の補正が施される。
 1つ目の補正は、音場制御時における複数のスピーカの配置の形状などが考慮された、音の到来方向を示す到来方向情報に関する補正である。これは、スピーカ配置の形状によって、音場制御が不可能な方向成分が存在するためであり、室内伝達関数のうちの制御が不可能な到来方向の成分を消去(除去)する補正が行われる。
 このような到来方向情報に関する補正は、例えば音場制御時の環境、すなわち再生環境が、受聴エリアR11からスピーカアレイ12を構成するスピーカを見たときに、スピーカの存在(配置)に偏りがある再生環境である場合などに行われる。換言すれば、受聴エリアR11から見てスピーカが存在しない方向がある再生環境である場合などに、到来方向情報に関する補正が行われる。
 2つ目の補正は、音速変化、すなわち音波の伝搬速度などが考慮された、複素振幅情報に関する補正である。これは、室内伝達関数を推定(計測)したときと、実際にコンテンツを再生するときとでは一般に室内の音速が異なるためであり、その音速の差異を推定により得られた室内伝達関数に適切に反映させる補正が行われる。室内伝達関数は、音速によって変化する。
 このような複素振幅情報に関する補正は、例えば室内伝達関数の推定(計測)時とは音速、つまり室内伝達関数が異なる再生環境である場合などに行われる。
 室内伝達関数に対して以上のような補正を行うことにより、よりコンテンツの再生環境に適した駆動信号を算出し、より精度よく音場制御を行うことができる。
〈音場制御システムの構成例〉
 続いて、以上において説明した本技術を適用した具体的な実施の形態について説明する。
 図2は、本技術を適用した音場制御システムの一実施の形態の構成例を示す図である。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図2に示す音場制御システムは、マイクロフォン11-1乃至マイクロフォン11-M、スピーカアレイ12、および信号処理装置41を有している。
 なお、ここでは複数のスピーカからなるスピーカアレイ12が用いられる例について説明するが、室内伝達関数の推定やコンテンツの再生に用いられるスピーカは1つであってもよい。
 また、図2では、図中、左側には室内伝達関数の推定時の様子が示されており、図中、右側にはコンテンツの再生時の様子が示されている。特に、ここでは室内伝達関数の推定時とコンテンツ再生時とでは、受聴エリアR11が存在する室内等の空間と、その空間内におけるスピーカアレイ12の配置は同じであるものとする。
 室内伝達関数の推定時には、室内等の空間における音場制御の対象となる受聴エリアR11には、M個のマイクロフォン11が配置され、それらのマイクロフォン11によって、スピーカアレイ12により出力された室内伝達関数の測定用の音(測定音)が収音される。
 このようにして収音が行われると、その結果得られた観測信号が信号処理装置41により取得され、それらの観測信号に基づいて受聴エリアR11の室内伝達関数が推定される。
 この例では信号処理装置41は、取得部51、伝達関数推定部52、伝達関数取得部53、伝達関数補正部54、および駆動信号生成部55を有している。
 取得部51は、M個の各マイクロフォン11から観測信号を取得して伝達関数推定部52に供給する。伝達関数推定部52は、取得部51から供給された観測信号に基づいて室内伝達関数を推定し、その推定結果を伝達関数取得部53に供給する。
 特にこの例では、伝達関数推定部52は、低周波数帯域、つまり低い周波数ビンについて室内伝達関数を推定する低周波数推定部71と、高周波数帯域、つまり高い周波数ビンについて室内伝達関数を推定する高周波数推定部72とを有している。これらの低周波数推定部71と高周波数推定部72では、互いに異なる手法(推定アルゴリズム)で室内伝達関数が推定される。
 伝達関数取得部53は、伝達関数推定部52から各周波数ビンについての室内伝達関数を取得し、伝達関数補正部54に供給する。
 伝達関数補正部54は、コンテンツの再生時の環境(再生環境)に応じて、伝達関数取得部53から供給された室内伝達関数を補正し、駆動信号生成部55に供給する。
 駆動信号生成部55は、伝達関数補正部54から供給された補正後の室内伝達関数と、コンテンツの音を再生するための音源信号とに基づいて、スピーカアレイ12を構成する各スピーカの駆動信号を生成し、スピーカアレイ12に供給する。
 スピーカアレイ12は、例えば多チャネルのスピーカ、すなわち複数のチャネルのスピーカを所定の形状に並べて配置した多チャネルのスピーカアレイである。スピーカアレイ12では、複数の各スピーカから互いに異なる音を出力することが可能である。換言すれば、複数の各スピーカを独立に制御することが可能である。
 スピーカアレイ12は、駆動信号生成部55から供給された駆動信号に基づいてスピーカを駆動し、駆動信号に基づく音を出力させる。これにより、図中、右側に示すように受聴者であるユーザU11がいる受聴エリアR11ではコンテンツの音が再生される。換言すれば、受聴エリアR11では、コンテンツの音を再生する所望の音場が形成される。
 なお、ここでは取得部51乃至駆動信号生成部55が1つの信号処理装置41に設けられる例について説明するが、これらの処理ブロックが異なる装置に設けられるようにしてもよい。例えば取得部51および伝達関数推定部52と、伝達関数取得部53乃至駆動信号生成部55とが互いに異なる信号処理装置に設けられていてもよい。
〈室内伝達関数の推定と補正について〉
(伝達関数推定部)
 ここで、室内伝達関数の推定と補正について、より詳細に説明する。換言すれば、伝達関数推定部52および伝達関数補正部54について、より詳細に説明する。
 まず、伝達関数推定部52による室内伝達関数の推定について説明する。
 なお、以下では、マイクロフォン11で得られる観測信号、およびスピーカアレイ12の駆動信号を周波数領域で考えるものとする。また、以下では、音速をc、角周波数をω、波数kをk=ω/cで定義する。さらに、以下では、上述した受聴エリアR11を受聴エリアΩとも記すこととする。
 伝達関数推定部52では、複数の各マイクロフォン11で得られる観測信号に基づいて、スピーカアレイ12の各スピーカから受聴エリアΩ(マイクロフォン11)までの伝達特性である室内伝達関数が推定される。
 例えば図3に示すように、スピーカアレイ12のスピーカから出力された音の受聴エリアR11、すなわち受聴エリアΩへの到来方向をθと記すとする。
 この例では、矢印Q11がスピーカから出力された音の受聴エリアR11への1つの到来方向を表しており、このような到来方向、より詳細には到来方向を示すベクトルを到来方向θと記すこととする。
 例えば受聴エリアΩには、スピーカから出力された音が複数の到来方向θから到来し得るので、伝達関数推定部52では、各到来方向θから到来する音の周波数ごと、つまり波数kごとの複素振幅p(θ,k)が室内伝達関数として推定される。特に、以下においては、マイクロフォン11として、音圧マイクロフォンが用いられるものとして説明を行う。
 例えば伝達関数推定部52では、周波数ビンごとに室内伝達関数の推定アルゴリズムが選択され、その選択結果に応じて、室内伝達関数の推定が周波数ビンごとに独立して行われる。
 一般的に、室内伝達関数の推定に必要なマイクロフォン11の数Mは、受聴エリアΩの半径Rと信号の角周波数ωに比例する。
 また、室内伝達関数の測定(推定)の際には、その測定に用いられるマイクロフォン11の数Mと受聴エリアΩの半径Rは定数とみなされる。
 例えば低い周波数(周波数ビン)、すなわち低い角周波数ωの室内伝達関数を推定する場合には、ヘルムホルツ方程式のみに基づいて室内伝達関数を推定することが可能である。
 これに対して、高い周波数(周波数ビン)、すなわち高い角周波数ωの室内伝達関数を推定する場合には、適切な仮定を置いたうえで圧縮センシングに基づく超解像技術を用いることが望まれる。
 なお、圧縮センシングについては、例えば「D. L. Donoho,“Compressed sensing,” IEEE Trans. Inf. Theory, vol. 52, no. 4, pp. 1289-1306, Apr. 2006.」などに詳細に記載されている。
 ここで、観測信号の周波数ビン(角周波数ω)、換言すれば駆動信号に基づく音の周波数(周波数ビン)に応じて、周波数ビンごとの室内伝達関数の推定アルゴリズム(推定手法)を選択する場合の具体的な例について説明する。
 例えば、低い周波数ビン(角周波数ω)では、特別な仮定を用いない音場の基礎方程式、すなわちヘルムホルツ方程式に基づく推定手法が用いられる。換言すればTranslation行列が用いられて室内伝達関数が推定される。
 一方、高い周波数ビンでは、本来、室内伝達関数の推定に必要なマイクロフォン11の数の設置が困難であるので、室内伝達関数の到来方向θに対してスパース性を仮定する超解像技術を利用した推定手法が用いられる。すなわち、圧縮センシングに基づく超解像技術により室内伝達関数を推定する推定手法が用いられる。
 受聴エリアΩ内に音源が含まれない場合、スピーカアレイ12のスピーカを駆動させたときに形成される音場u(r,k)(但しr∈Ω)は、以下の式(1)に示すヘルムホルツ方程式を満たす。なお、式(1)においてrは受聴エリアΩ内の位置、すなわち位置を示すベクトルを表している。
Figure JPOXMLDOC01-appb-M000001
 いま、室内伝達関数を推定するためにM個のマイクロフォン11を用いることとし、それらのM個のうちのm番目のマイクロフォン11の位置をrmとし、その位置rmでのマイクロフォン11による収音で得られる周波数領域の観測信号をym(ω)と記すこととする。
 この場合、観測信号ym(ω)は次式(2)で表すことができる。
Figure JPOXMLDOC01-appb-M000002
 なお、式(2)において、εm(ω)は、m番目のマイクロフォン11の観測信号ym(ω)に重畳される雑音成分を表している。
 室内伝達関数推定の目的は、M個の観測信号ym(ω)(m=1,…,M)に基づき、受聴エリアΩ内に形成される音場、すなわち直接波(直接音)や反射波(残響音)等の音波の到来方向θと、その音場の複素振幅p(θ,k)を推定することである。
 まず、特別な仮定を必要としない、ヘルムホルツ方程式に基づく室内伝達関数の推定手法、すなわちTranslation行列を用いる推定手法について説明する。この推定手法では、次式(3)に示すように球面調和関数展開に基づいて室内伝達関数が推定される。
Figure JPOXMLDOC01-appb-M000003
 なお、式(3)においてjν(kr)は球ベッセル関数を表しており、Yν μ(r’)は球面調和関数を表している。また、ここでは所定の定数をγとしてr=γr’とされている。さらに、式(3)ではαν μ(k)は展開係数を表しており、Nは球面調和関数の次数(最大次数)を表している。
 展開係数αν μ(k)と観測信号ym(ω)には以下の式(4)に示す等式が成り立つ。
Figure JPOXMLDOC01-appb-M000004
 なお、式(4)においてτν μ(rm,k)はtranslation行列T’(rm,k)の第(ν,μ)要素に相当する。translation行列については、例えば「P. A. Martin, “Multiple Scattering: Interaction of Time-Harmonic Waves with N Obstacles”, Cambridge University Press, New York, 2006.」などに詳細に記載されている。
 このような式(4)はm=1,…,Mについて成り立ち、それらをまとめて次式(5)に示すように行列で表現することが可能である。
Figure JPOXMLDOC01-appb-M000005
 なお、式(5)においてy(ω)は、所定の角周波数ωについてのM個の観測信号ym(ω)からなるベクトルであり、ベクトルy(ω)の第m成分はym(ω)である。
 また、T(k)は第(m,ν,μ)成分がτν μ(rm,k)である行列であり、α(k)は第(ν,μ)成分が展開係数αν μ(k)であるベクトルである。
 以上のことから、ベクトルα(k)の推定値であるベクトルα’(k)は次式(6)により得ることができる。
Figure JPOXMLDOC01-appb-M000006
 なお、式(6)においてT(k)は行列T(k)の擬似逆行列を表している。
 このようにして得られたベクトルα’(k)、つまりベクトルα’(k)の要素である展開係数αν μ(k)の推定値(以下、展開係数α’ν μ(k)とも記す)に基づいて、受聴エリアΩ内への到来方向θからの音の到来成分の複素振幅p(θ,k)を求めることができる。
 具体的には、次式(7)を計算することで複素振幅p(θ,k)を得ることができる。
Figure JPOXMLDOC01-appb-M000007
 なお、式(7)において(・)Hはエルミート転置を表しており、wは第(ν,μ)成分が次式(8)に示すwν μ*であるベクトルを表している。式(8)では、(・)は複素共役を表している。
Figure JPOXMLDOC01-appb-M000008
 以上のように、観測信号ym(ω)に基づき式(6)を計算して得られるベクトルα(k)の推定値を求め、その推定値に基づいて式(7)を計算することで、任意の到来方向θの複素振幅p(θ,k)を推定することができる。
 例えば低周波数推定部71では、以上において説明したTranslation行列を用いる推定手法により、室内伝達関数としての各到来方向θの複素振幅p(θ,k)が推定により求められる。換言すれば、到来方向θを示す到来方向情報と、複素振幅p(θ,k)を示す複素振幅情報とからなる室内伝達関数が得られる。
 次に、スパース最適化を用いた推定手法、すなわち圧縮センシングに基づく超解像技術による推定手法について説明する。
 スパース最適化を用いた推定手法では、受聴エリアΩへの室内伝達関数は少数の平面波によって近似可能であると仮定される。この仮定により、音場の超解像化が可能となる。
 ここではまず、観測信号ym(ω)が次式(9)に示す過完備の平面波基底が用いられて以下の式(10)に示すように展開される。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 なお、式(9)および式(10)においてθl(||θl||2=1)は離散化された波面の到来方向θの候補を表している。
 式(10)はm=1,…,Mについて成り立ち、それらをまとめて次式(11)に示すように行列で表現することが可能である。
Figure JPOXMLDOC01-appb-M000011
 なお、式(11)においてD(k)は第(m,l)成分が式(9)に示した平面波基底である行列であり、x(k)は第l成分が複素振幅p(θl,k)であるベクトルである。また、平面波基底、すなわち到来方向θの数Lは十分に大きいものとする。
 室内伝達関数の超解像化では、以下の式(12)に示す最小化問題を解くことで各到来方向θの振幅および位相が決定される。すなわち、式(12)を計算することで、室内伝達関数としての各到来方向θの複素振幅p(θ,k)を得ることができる。
Figure JPOXMLDOC01-appb-M000012
 この推定手法では、ベクトルx(k)に対してスパース性を誘導するために、通常q≦1が用いられる。このようなlqノルム正則を伴う最小化問題を解くためのアルゴリズムは多数提案されており、例えば「S. F. Cotter and B. D. Rao anf K. Engan and K. Kreutz-Delgado, “Sparse solutions to linear inverse problems with multiple measurement vectors,” IEEE TSP, vol. 53, no. 7, 2005.」などに詳細に記載されている。
 例えば高周波数推定部72では、以上において説明したスパース最適化を用いた推定手法により、室内伝達関数としての各到来方向θの複素振幅p(θ,k)が推定により求められる。すなわち、到来方向θを示す到来方向情報と、複素振幅p(θ,k)を示す複素振幅情報とからなる室内伝達関数が得られる。特に、スパース最適化を用いた推定手法では、残響成分が到来方向θの情報として推定される。
 以上のように、Translation行列を用いる推定手法と、スパース最適化を用いた推定手法の何れの手法によっても、複数の各マイクロフォン11で得られた観測信号ym(ω)から、各到来方向θの複素振幅p(θ,k)を推定することが可能である。
 なお、伝達関数推定部52における推定手法は、以上において説明した推定手法に限らず、各到来方向θと、それらの到来方向θの複素振幅p(θ,k)を推定することが可能な手法であれば、カーネル補間による推定手法など、他のどのような手法であってもよい。
(伝達関数補正部)
 続いて、伝達関数補正部54について説明する。
 伝達関数補正部54では、再生環境に応じて、推定により得られた室内伝達関数、すなわち各到来方向θの複素振幅p(θ,k)が補正される。
 このような室内伝達関数の補正により、音場制御の性能改善が見込まれる。すなわち、より高精度に所望の音場を形成することができるようになる。
 ここでは、室内伝達関数の補正の一例として、スピーカアレイ12を構成するスピーカの配置形状を考慮した到来方向情報に関する補正と、音速変化を考慮した複素振幅情報の補正について説明する。
 まず、スピーカアレイ12を構成するスピーカの配置形状を考慮した到来方向情報に関する補正について説明する。
 スピーカアレイ12を構成するスピーカの配置形状は、例えば図4に示すように受聴エリアR11の前方に直線状にスピーカを並べて配置する形状や、図5に示すように受聴エリアR11を囲むように矩形状にスピーカを並べて配置する形状など、様々な形状が考えられる。なお、図4および図5において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 このようにスピーカアレイ12のスピーカ配置形状は、様々なものが考えられるが、実際には図5に示したように、受聴エリアR11、すなわち受聴エリアΩを囲むようにスピーカが配置されるケースは多くはない。
 例えば図4に示したようにスピーカアレイ12を構成する各スピーカを直線状に並べて配置した場合、図6に示すようにスピーカを用いて音場を制御可能な到来方向θは、直線L11および直線L12の間の角度範囲S内の方向に制限される。換言すれば、受聴エリアΩから見たときに、スピーカアレイ12を構成するスピーカが存在する方向に制限される。なお、図6において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図6の例では、直線L11により示される方向から、直線L12により示される方向までの方向(角度)の範囲が角度範囲Sとなっており、受聴エリアΩから見て角度範囲S内の任意の方向にはスピーカアレイ12のスピーカが存在している。
 受聴エリアΩ内に任意の音場を形成する場合、角度範囲S内に含まれる方向(角度)を到来方向θとすれば、すなわち、角度範囲S内に含まれる到来方向θからのみ音が到来するものとすれば、音場を精度よく形成することが可能(音場を制御可能)である。
 換言すれば、角度範囲S内に含まれる到来方向θの複素振幅情報(室内伝達関数)のみを用いるようにすれば、所望の音場を少ない誤差で形成することが可能である。
 しかし、角度範囲S外の方向、つまり受聴エリアΩから見てスピーカアレイ12のスピーカが存在しない方向については、その方向から音波が到来する音場を精度よく形成することはできない。そのため、室内伝達関数として角度範囲S外の到来方向θの複素振幅情報も用いた場合には、角度範囲S外の到来方向θ、すなわち制御不可能な到来方向θからの音の成分を打ち消すために、音場制御の性能(精度)が劣化してしまう。
 さらに、制御不可能な到来方向θからの音の成分の推定誤差により、スピーカアレイ12の駆動信号の空間フィルタが不安定になってしまう。すなわち、空間フィルタを得るための予測演算の難易度が高くなり、適切な空間フィルタ(解)を得ることが困難となる。
 このような角度範囲S外の到来方向θの成分は、室で生じる残響成分の一部である。
 そこで、このような音場制御の性能の劣化や、空間フィルタが不安定になってしまうことを抑制するために、伝達関数補正部54では次式(13)に示すように角度範囲S外の到来方向θの複素振幅p(θ,k)の値をゼロとする補正が室内伝達関数に対して行われる。
Figure JPOXMLDOC01-appb-M000013
 このような式(13)に示す補正は、受聴エリアΩから見てスピーカアレイ12のスピーカが存在しない到来方向θの複素振幅p(θ,k)の値をゼロとする補正、すなわち制御が不可能な残響成分を間引く処理である。
 実際にスピーカアレイ12により音場を形成する場合、スピーカアレイ12のスピーカは、部屋の壁面に沿って配置されることが多く、形成される音場では角度範囲S内の到来方向θからの音の成分が支配的となる。
 したがって、伝達関数推定部52で得られた室内伝達関数に対して、角度範囲S外の到来方向θの複素振幅p(θ,k)の値をゼロとする補正、つまり到来方向情報に関する補正を行うことで、室内伝達関数に基づき生成される空間フィルタが不安定になってしまうことを抑制することができる。すなわち、より頑健な空間フィルタを得ることができる。これにより、より精度よく音場を形成することができるようになる。
 なお、到来方向情報に関する室内伝達関数の補正は、スピーカアレイ12のスピーカ配置の形状に応じた補正に限らず、他の情報を考慮して行われるようにしてもよい。
 また、ここではスピーカアレイ12のスピーカ配置形状として図4や図5に例を示したが、その他、L字型にスピーカを並べて配置するなど、スピーカ配置形状はどのような形状であってもよい。
 例えばスピーカアレイ12のスピーカをL字に並べて配置するときには、受聴エリアΩから見てスピーカアレイ12のスピーカが存在しない到来方向θがあるので、その到来方向θについて複素振幅p(θ,k)の値をゼロとする補正が行われる。
 これに対して、例えば図5に示したようにスピーカアレイ12のスピーカを、受聴エリアΩを囲むように四角形状に並べて配置するときには、受聴エリアΩから見てスピーカアレイ12のスピーカが存在しない到来方向θはないので、到来方向θに関する室内伝達関数の補正は行われない。
 次に、音速変化を考慮した複素振幅情報の補正について説明する。
 音速は音波の伝搬速度に相当し、室内伝達関数のうち、特に複素振幅情報に寄与するパラメータの1つである。
 音速は室の温度、湿度、気圧などに依存し、時変なパラメータとして扱う必要がある。一般的に複数のマイクロフォン11を用いて複素振幅p(θ,k)の観測を行うとき、つまり室内伝達関数を推定するときと、実際にコンテンツを再生するときとでは音速が異なる。
 したがって、音場制御の性能を悪化させないためには、室内伝達関数の推定時とコンテンツ再生時の両方の環境における音速を計測し、それらの音速の差異を考慮した補正を室内伝達関数に対して行う必要がある。例えば音速に応じた音場制御については、「T. Betlehem and L. Krishnan and P. Teal, “Temperature robust active-compensated sound field reproduction using impulse response shaping,” Proc. IEEE ICASSP, 2018.」などに詳細に記載されている。
 例えば伝達関数補正部54では、推定によって得られた室内伝達関数としての複素振幅p(θ,k)を各到来方向θに対して波数kの関数として捉え、関係式k=2πf/cに基づいて、再生環境下における複素振幅p(θ,k)に対して以下の式(14)に示す補正が行われる。
Figure JPOXMLDOC01-appb-M000014
 なお、k=2πf/cにおけるfは周波数を表しており、式(14)において複素振幅p’(θ,k)は補正後の複素振幅p(θ,k)を表している。また、式(14)におけるeは室内伝達関数の測定(推定)時の音速と、コンテンツ再生時の音速との比(音速比)を表している。
 式(14)に示す例では、音速比eに基づいて、音速の変化分だけ複素振幅p(θ,k)の波数kが補正され、補正後の複素振幅p’(θ,k)とされている。
 このような補正は、受聴エリアΩでのスピーカアレイ12によるコンテンツの再生環境が、室内伝達関数の推定時とは音速が異なる再生環境である場合に行えばよい。
 図2に示した音場制御システムでは、何らかの方法により室内伝達関数の測定時の音速と、コンテンツ再生時の音速とが計測されて音速比eが求められる。
 伝達関数補正部54では、音速比eに基づいて上述の式(14)を計算し、室内伝達関数に対して音速変化を考慮した補正を行うことで、より適切な室内伝達関数を得ることができる。なお、音速比eは伝達関数補正部54で算出されるようにしてもよいし、伝達関数補正部54とは異なる処理ブロックで算出されて伝達関数補正部54に供給されるようにしてもよい。
 また、複素振幅情報の補正は、音速変化に応じた補正に限らず、カーテン等による室内の壁面の材質の変化やスピーカアレイ12のスピーカの非線形性の変化など、他の情報を考慮して行われるようにしてもよい。
〈室内伝達関数推定処理の説明〉
 次に図2に示した音場制御システムの動作について説明する。すなわち、以下、図7のフローチャートを参照して、音場制御システムによる室内伝達関数推定処理について説明する。
 ステップS11において取得部51は、複数の各マイクロフォン11から収音により得られた観測信号ym(ω)を取得して伝達関数推定部52に供給する。
 例えば室内伝達関数の測定(推定)時には、スピーカアレイ12を構成するスピーカは、駆動信号生成部55から供給された、室内伝達関数測定用の駆動信号に基づいて音(測定音)を出力する。
 ここでは、スピーカアレイ12を構成する複数のスピーカが1つずつ順番に音を出力し、各マイクロフォン11ではスピーカごとに観測信号ym(ω)が得られる。これにより、例えばスピーカアレイ12の各スピーカからマイクロフォン11へのインパルス応答が測定される。
 ステップS12において低周波数推定部71は、取得部51から供給された観測信号ym(ω)に基づいて、低周波数の室内伝達関数を推定する。
 例えば低周波数推定部71は、角周波数ωが所定の閾値以下である観測信号ym(ω)、つまり周波数が所定値以下である周波数ビンの観測信号ym(ω)に基づいて、上述の式(6)および式(7)を計算することで各到来方向θの複素振幅p(θ,k)を推定し、その推定結果を低周波数の室内伝達関数とする。
 ステップS13において高周波数推定部72は、取得部51から供給された観測信号ym(ω)に基づいて、高周波数の室内伝達関数を推定する。
 例えば高周波数推定部72は、角周波数ωが所定の閾値より大きい観測信号ym(ω)、つまり周波数が所定値より大きい周波数ビンの観測信号ym(ω)に基づいて、上述の式(12)の計算を行うことで各到来方向θの複素振幅p(θ,k)を推定し、その推定結果を高周波数の室内伝達関数とする。
 伝達関数推定部52は、ステップS12およびステップS13で得られた各室内伝達関数を出力する。また、室内伝達関数の推定時には、そのときの音速も計測されて、その計測結果が伝達関数補正部54に供給される。
 このようにして室内伝達関数が得られると、その後、コンテンツ再生時には以下のステップS14乃至ステップS18の処理が行われる。また、コンテンツ再生時には、受聴エリアΩにおけるコンテンツ再生時の音速が計測されて、その計測結果が伝達関数補正部54に供給される。
 ステップS14において伝達関数取得部53は、伝達関数推定部52から室内伝達関数を取得し、伝達関数補正部54に供給する。
 ステップS15において伝達関数補正部54は、伝達関数取得部53から供給された室内伝達関数に対して到来方向情報に関する補正を行う。
 例えば伝達関数補正部54は、コンテンツ再生時のスピーカアレイ12のスピーカ配置形状に対して定まる角度範囲Sについて、上述した式(13)に示したように角度範囲S外の到来方向θの複素振幅p(θ,k)の値をゼロとする補正を室内伝達関数に対して行う。
 なお、ステップS15の処理は、再生環境が、受聴エリアΩからスピーカアレイ12を構成するスピーカを見たときに、スピーカの存在に偏りがある再生環境である場合、つまりスピーカが存在しない到来方向θがある場合などに行われればよい。
 ステップS16において伝達関数補正部54は、ステップS15の補正で得られた室内伝達関数に対して複素振幅情報に関する補正を行う。
 例えば伝達関数補正部54は、供給された室内伝達関数の推定時の音速と、コンテンツ再生時の音速とに基づいて音速比eを算出する。そして伝達関数補正部54は、上述の式(14)を計算することで、ステップS15で得られた室内伝達関数に対して音速比eに基づく補正を行い、最終的な室内伝達関数とする。
 例えばステップS16の処理は、コンテンツの再生環境が、室内伝達関数の推定時と、コンテンツ再生時とで音速が異なる再生環境である場合に行われればよい。
 伝達関数補正部54は、このようにして得られた室内伝達関数を駆動信号生成部55へと供給する。
 ステップS17において駆動信号生成部55は、伝達関数補正部54から供給された室内伝達関数に基づいて駆動信号を生成する。
 例えば駆動信号生成部55は、伝達関数補正部54から供給された室内伝達関数に基づいて空間フィルタを生成し、コンテンツを再生するための音源信号に対して空間フィルタによるフィルタリングを行うことで駆動信号を生成する。
 ステップS18において駆動信号生成部55は、生成された駆動信号をスピーカアレイ12の各スピーカに供給して駆動させることで、各スピーカから音を出力させる。これにより、受聴エリアΩでは所望の音場が形成され、コンテンツの音が再生される。
 このようにしてコンテンツが再生されると、室内伝達関数推定処理は終了する。
 以上のようにして音場制御システムは、周波数ビンごとに異なる推定手法により室内伝達関数を推定するとともに、スピーカアレイ12のスピーカ配置形状や音速変化に応じて室内伝達関数を補正する。
 このように周波数ビンごとに適した推定手法により室内伝達関数を推定することで、より適切な室内伝達関数を得ることができる。これにより、より高精度に所望の音場を形成することができる。しかも、スピーカ配置形状や音速変化に応じて室内伝達関数を補正することで、さらに適切な室内伝達関数を得ることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得する伝達関数取得部と、
 前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する伝達関数補正部と
 を備える信号処理装置。
(2)
 前記伝達関数補正部は、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、前記スピーカが存在しない方向に関する前記伝達関数を補正する
 (1)に記載の信号処理装置。
(3)
 前記伝達関数補正部は、前記スピーカが存在しない方向に関する前記伝達関数の複素振幅の値をゼロとする補正を行う
 (2)に記載の信号処理装置。
(4)
 前記伝達関数補正部は、前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、前記伝達関数の推定時の音速と、前記音を再生するときの音速との比に基づいて前記伝達関数を補正する
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
 前記伝達関数補正部は、前記比に基づいて、前記伝達関数の複素振幅の値を補正する
 (4)に記載の信号処理装置。
(6)
 前記伝達関数は、前記音の周波数に応じて異なるアルゴリズムで推定される
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記伝達関数は、ヘルムホルツ方程式に基づいて推定される
 (6)に記載の信号処理装置。
(8)
 前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
 (6)に記載の信号処理装置。
(9)
 高周波数帯域の前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
 (8)に記載の信号処理装置。
(10)
 前記観測信号に基づいて前記伝達関数を推定する伝達関数推定部をさらに備える
 (1)乃至(9)の何れか一項に記載の信号処理装置。
(11)
 信号処理装置が、
 スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
 前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
 信号処理方法。
(12)
 スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
 前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11-1乃至11-M,11 マイクロフォン, 12 スピーカアレイ, 41 信号処理装置, 51 取得部, 52 伝達関数推定部, 53 伝達関数取得部, 54 伝達関数補正部, 55 駆動信号生成部, 71 低周波数推定部, 72 高周波数推定部

Claims (12)

  1.  スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得する伝達関数取得部と、
     前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する伝達関数補正部と
     を備える信号処理装置。
  2.  前記伝達関数補正部は、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、前記スピーカが存在しない方向に関する前記伝達関数を補正する
     請求項1に記載の信号処理装置。
  3.  前記伝達関数補正部は、前記スピーカが存在しない方向に関する前記伝達関数の複素振幅の値をゼロとする補正を行う
     請求項2に記載の信号処理装置。
  4.  前記伝達関数補正部は、前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、前記伝達関数の推定時の音速と、前記音を再生するときの音速との比に基づいて前記伝達関数を補正する
     請求項1に記載の信号処理装置。
  5.  前記伝達関数補正部は、前記比に基づいて、前記伝達関数の複素振幅の値を補正する
     請求項4に記載の信号処理装置。
  6.  前記伝達関数は、前記音の周波数に応じて異なるアルゴリズムで推定される
     請求項1に記載の信号処理装置。
  7.  前記伝達関数は、ヘルムホルツ方程式に基づいて推定される
     請求項6に記載の信号処理装置。
  8.  前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
     請求項6に記載の信号処理装置。
  9.  高周波数帯域の前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
     請求項8に記載の信号処理装置。
  10.  前記観測信号に基づいて前記伝達関数を推定する伝達関数推定部をさらに備える
     請求項1に記載の信号処理装置。
  11.  信号処理装置が、
     スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
     前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
     信号処理方法。
  12.  スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
     前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/020436 2020-06-11 2021-05-28 信号処理装置および方法、並びにプログラム WO2021251182A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020101846 2020-06-11
JP2020-101846 2020-06-11

Publications (1)

Publication Number Publication Date
WO2021251182A1 true WO2021251182A1 (ja) 2021-12-16

Family

ID=78845617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/020436 WO2021251182A1 (ja) 2020-06-11 2021-05-28 信号処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2021251182A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10285699A (ja) * 1996-11-20 1998-10-23 Korea Electron Telecommun 多チャンネル音響システムの自動調節装置およびその方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10285699A (ja) * 1996-11-20 1998-10-23 Korea Electron Telecommun 多チャンネル音響システムの自動調節装置およびその方法

Similar Documents

Publication Publication Date Title
JP5229053B2 (ja) 信号処理装置、および信号処理方法、並びにプログラム
EP2642768B1 (en) Sound enhancement method, device, program, and recording medium
JP3863323B2 (ja) マイクロホンアレイ装置
WO2018008395A1 (ja) 音場形成装置および方法、並びにプログラム
US9042573B2 (en) Processing signals
JP2006508404A (ja) 仮想サウンド合成のためのラウドスピーカシステム
CN103583054A (zh) 经由根据抵达方向估算提取几何信息的声音获取
WO2015137146A1 (ja) 音場収音装置および方法、音場再生装置および方法、並びにプログラム
Heuchel et al. Large-scale outdoor sound field control
JP5986966B2 (ja) 音場収音再生装置、方法及びプログラム
WO2021251182A1 (ja) 信号処理装置および方法、並びにプログラム
Georgiou et al. Incorporating directivity in the Fourier pseudospectral time-domain method using spherical harmonics
EP3761665B1 (en) Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program
JP2010245984A (ja) マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム
JP5698166B2 (ja) 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム
JP2022008732A (ja) 信号処理装置および方法、並びにプログラム
Okamoto et al. Estimation of sound source positions using a surrounding microphone array
JP5337189B2 (ja) フィルタ設計における反射物の配置決定方法、装置、プログラム
JP6323901B2 (ja) 収音装置および収音方法、並びにプログラム
JP6650245B2 (ja) インパルス応答生成装置及びプログラム
JP2019075616A (ja) 音場収録装置及び音場収録方法
JP5172909B2 (ja) 反射音情報推定装置、反射音情報推定方法、プログラム
CN111157949A (zh) 一种语音识别及声源定位方法
Gao et al. Multizone sound reproduction with adaptive control of scattering effects
WO2021246195A1 (ja) 信号処理装置および方法、並びにプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21820865

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21820865

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP