WO2021246195A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021246195A1
WO2021246195A1 PCT/JP2021/019304 JP2021019304W WO2021246195A1 WO 2021246195 A1 WO2021246195 A1 WO 2021246195A1 JP 2021019304 W JP2021019304 W JP 2021019304W WO 2021246195 A1 WO2021246195 A1 WO 2021246195A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
sound velocity
velocity value
microphone
Prior art date
Application number
PCT/JP2021/019304
Other languages
English (en)
French (fr)
Inventor
雄太 瀧田
ウェイシャン リャオ
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021246195A1 publication Critical patent/WO2021246195A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H5/00Measuring propagation velocity of ultrasonic, sonic or infrasonic waves, e.g. of pressure waves

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices and methods that enable easier and more accurate estimation of the speed of sound, and programs.
  • Non-Patent Document 1 Patent Document 1
  • Patent Document 2 Patent Document 2
  • a measurement signal called a pulse sound is output from a speaker with a plurality of microphones arranged at known intervals. Then, the speed of sound is calculated based on the difference in the arrival time of the first wave (direct wave) of the pulse sound to each microphone and the difference in the distance from the speaker to each microphone.
  • the pulse sound may reach the ears of a person in the same environment and may be jarring.
  • This technology was made in view of such a situation, and makes it possible to estimate the speed of sound more easily and with high accuracy.
  • the signal processing device on one aspect of the present technology includes an acquisition unit that acquires an observation signal obtained by collecting sounds output from a plurality of speakers with a single microphone, and the speaker based on the observation signal. It is provided with an estimation unit for estimating a sound velocity value between the microphone and the microphone.
  • the signal processing method or program of one aspect of the present technology acquires an observation signal obtained by collecting sounds output from a plurality of speakers with a single microphone, and based on the observation signal, the speaker and the speaker. It includes a step of estimating the sound velocity value with the microphone.
  • an observation signal obtained by collecting sounds output from a plurality of speakers by a single microphone is acquired, and based on the observation signal, between the speaker and the microphone.
  • the sound velocity value in is estimated.
  • the robustness to noise components other than the direct wave from the speaker is improved, and more.
  • the speed of sound can be estimated with high accuracy.
  • multi-channel speaker that is, a speaker array consisting of speakers having a plurality of channels
  • the spatial acoustic system using multi-channel speakers that is, the sound field control technology such as wave field synthesis, generates the drive signal of each speaker based on the sound velocity value.
  • the drive signal generated based on the sound velocity value When sound is output from each speaker by the drive signal generated based on the sound velocity value, a sound field is formed by the phase difference (wave nature) of the sound.
  • the phase of the sound that is, the position where the sound waves strengthen each other, is set in the space. There will be a gap. Then, an error occurs between the desired sound field to be formed and the sound field actually formed.
  • FIG. 1 is a diagram showing a configuration example of an embodiment of a sound velocity estimation system to which the present technology is applied.
  • the sound velocity estimation system shown in FIG. 1 includes a signal processing device 11, a speaker array 12, and a microphone 13.
  • a speaker array 12 composed of a plurality of independently controllable speakers and a single microphone 13 are provided.
  • a reproduction area R11 is provided in front of the speaker array 12, and it is assumed that a user (listener) listens to sounds such as contents output from the speaker array 12 in the reproduction area R11. ..
  • the microphone 13 is arranged at a position outside the reproduction area R11 where a beam wave is likely to be formed by the speaker array 12 with respect to any multi-channel speaker array 12 already installed. In other words, the microphone 13 is arranged in a direction different from a certain direction of the reproduction area R11 when viewed from the speaker array 12.
  • the drive signals for driving each speaker are freely determined for the multi-channel speaker array 12, and the sound waves output from those speakers can be observed by the microphone 13.
  • the signal processing device 11 includes a drive signal calculation unit 21 that determines the drive signal of each speaker constituting the speaker array 12, an acquisition unit 22 that acquires the observation signal obtained by the microphone 13, and an observation signal that analyzes the observation signal. It has an analysis unit 23.
  • the drive signal calculation unit 21, the acquisition unit 22, and the observation signal analysis unit 23 are provided in different devices, and if necessary, these devices are wired or wireless. They may be interconnected.
  • the drive signal calculation unit 21 calculates a drive signal for driving each speaker of the speaker array 12, and supplies the obtained drive signal to the speaker array 12.
  • each speaker of the speaker array 12 is driven based on the drive signal supplied from the drive signal calculation unit 21, and outputs a sound wave (sound) based on the drive signal.
  • the sound of the desired content is reproduced in the reproduction area R11. Further, in an area (region) near the microphone 13 outside the reproduction area R11, sound waves for sound velocity estimation output from each speaker are superimposed to form a sound wave beam (hereinafter, also referred to as a beam wave).
  • a beam wave for sound velocity estimation a beam wave propagating in a certain direction of the microphone 13 is formed, and this beam wave is observed (sound picked up) by the microphone 13.
  • the assumed sound velocity value is set, and the drive signal of each speaker is calculated based on the assumed sound velocity value so that the beam wave for sound velocity estimation is observed in the vicinity of the microphone 13. ..
  • the assumed sound velocity value referred to here is an assumed value of the sound velocity value between the actual content and the like reproduction environment, that is, for example, between the speaker array 12 and the microphone 13.
  • the assumed sound velocity value is an assumed value of the sound velocity value of the sound output from the speaker array 12.
  • the beam wave that is, from each speaker is the most.
  • the sound waves strengthen each other, and the power of the observation signal is maximized.
  • the drive signal calculation unit 21 calculates the drive signal while changing the assumed sound velocity value with time, and outputs the sound from the speaker array 12.
  • the acquisition unit 22 acquires the observation signal obtained by the microphone 13 picking up the ambient sound and supplies it to the observation signal analysis unit 23.
  • the observation signal analysis unit 23 analyzes the observation signal supplied from the acquisition unit 22 and functions as an estimation unit for estimating the sound velocity value.
  • the observation signal analysis unit 23 estimates the true sound velocity value between the speaker array 12 and the microphone 13 based on the power of the observation signal. Specifically, for example, in the observation signal analysis unit 23, a hypothetical sound velocity value that maximizes the power of the observation signal is searched (searched), and the search result is used as an estimated sound velocity value (estimated result).
  • the number of speakers constituting the speaker array 12 is 4 or more, but the number of speakers may be 2 or more, and the beam wave may be generated.
  • the number of microphones 13 for observation may be 2 or more.
  • the multi-channel speaker array 12 is already installed, but as a device for sound velocity estimation, a plurality of non-multi-channel speakers and at least one or more microphones 13 are used. It is also possible to introduce it.
  • the plurality of speakers constituting the speaker array 12 may be arranged side by side in any shape such as a straight line or a rectangular shape, and the microphone 13 may be arranged at an arbitrary position.
  • the drive signal calculated by the drive signal calculation unit 21 and the observation signal obtained by the microphone 13 are considered in the frequency domain.
  • the speaker array 12 will be described as being composed of L speakers (loudspeakers).
  • c' represents an argument related to the speed of sound, and here c'corresponds to the assumed sound velocity value.
  • represents an angular frequency.
  • the appropriate microphone 13 position r mic and the drive signal d l ( ⁇ , c') of each speaker l depend on the arrangement condition of each speaker l constituting the speaker array 12.
  • the speakers l constituting the speaker array 12 are linearly arranged at equal intervals.
  • the same reference numerals are given to the portions corresponding to those in FIG. 1, and the description thereof will be omitted as appropriate.
  • the speakers l constituting the speaker array 12 are arranged in a straight line in the horizontal direction in the drawing.
  • the distance between the speakers l adjacent to each other is ⁇ x. That is, the speakers l are arranged at intervals of a distance ⁇ x.
  • the microphone 13 is arranged at an arbitrary position on a straight line where the speakers are lined up, that is, at an arbitrary position on the same straight line as each speaker l. Just do it.
  • the spatial filter for generating the drive signal d l ( ⁇ , c'), more specifically, the filter coefficient h l ( ⁇ , c') of the spatial filter is delayed as shown in the following equation (1).
  • the filter it is possible to form a beam wave in which the sound waves output (radiated) from each speaker l intensify each other at the position r mic of the microphone 13.
  • i represents the imaginary unit and ⁇ represents the angular frequency.
  • ⁇ x represents the distance (interval) between the speakers l adjacent to each other, and c'represents the assumed sound velocity value.
  • the drive signal calculation unit 21 filters the predetermined original signal d ( ⁇ ) prepared in advance by the spatial filter h l ( ⁇ , c'), so that the drive signal d l ( ⁇ ) for each speaker l is performed. , c') is generated. That is, the drive signal calculation unit 21 convolves the spatial filter h l ( ⁇ , c') and the original signal d ( ⁇ ) as shown in the following equation (2), thereby causing the drive signal d l ( ⁇ ) of the speaker l. , c') is calculated.
  • the equation (2) is calculated for each speaker l constituting the speaker array 12 for one original signal d ( ⁇ ), and the spatial filter h l ( ⁇ , c') is used.
  • the original signal d ( ⁇ ) is convoluted, and the drive signal d l ( ⁇ , c') for each speaker l is obtained.
  • each speaker l is driven based on those drive signals d l ( ⁇ , c'), and a beam wave propagating in the direction of the microphone 13 is formed.
  • the microphone 13 obtains the observation signal s ( ⁇ , c', c true) as a result of collecting the ambient sound.
  • c true represents the actual sound wave value of the sound wave output from the speaker array 12, that is, the true value of the sound wave.
  • FIG. 4 shows the horizontal direction and the vertical direction in the figure indicate the direction in the space where the speaker array 12 is arranged, and the shade in the figure indicates the magnitude (power) of the sound wave component. That is, FIG. 4 shows the sound pressure distribution of the beam wave based on the drive signal d l ( ⁇ , c').
  • the horizontal direction indicates the direction in which the speakers constituting the speaker array 12 are arranged.
  • the speaker array 12 is arranged at the position indicated by the arrow Q11, and the power of the sound wave is large in the direction in which the speakers constituting the speaker array 12 are lined up, particularly in the speaker array 12 and the position on the right side in the figure. You can see that.
  • the power of the sound wave is smaller at each position in the upward and downward directions in the figure with respect to the speaker array 12.
  • the microphone 13 is arranged at the position indicated by the arrow Q12 and the position indicated by the arrow Q13 is set as the reproduction area R11, the user who observes the beam wave of sufficiently large power with the microphone 13 and listens to the content in the reproduction area R11.
  • the power of the sound wave that physically reaches the (listener) ear can be sufficiently reduced.
  • the sound velocity value can be estimated without causing the user to perceive the sound for sound velocity estimation output from the speaker array 12.
  • the original signal d ( ⁇ ) used to generate the drive signal d l ( ⁇ , c') for sound velocity estimation a signal containing only high frequency band components within the range that can be driven by a normal speaker is used. If it is used, it is possible to make it more difficult for the user to perceive the sound for sound velocity estimation.
  • a signal that can be approximated to the delta function ⁇ (t) there is a signal of a pseudo-random number family such as white noise.
  • a signal obtained by filtering a white noise signal with a high-pass filter also has almost the same properties as the original white noise, so such a signal should be used as the original signal d ( ⁇ ). You may.
  • the original signal d ( ⁇ ) is not limited to a signal obtained from white noise, but is any other signal as long as it satisfies such properties related to autocorrelation and cross-correlation. You may.
  • a signal composed of low frequency components may be used as the original signal d ( ⁇ ) so that a sound pressure difference of the beam wave is generated.
  • the observation signal analysis unit 23 analyzes the observation signal, it performs robust processing for noise components other than the drive sound of the speaker of the speaker array 12. Can be done. That is, the robustness against noise components can be improved. Further, it is possible to make it difficult for the user in the reproduction area R11 to perceive the sound for sound velocity estimation.
  • the observation signal analysis unit 23 obtains an estimated sound velocity by analyzing the observation signal s ( ⁇ , c', c true) obtained by collecting the sound of the microphone 13.
  • the observed signal s ( ⁇ , c ', c true) power P ss as a real signal area of the (omega, c', c true) is obtained by calculating the following equation (3).
  • P ( ⁇ , c true ) represents a constant term that depends only on the transmission from each speaker of the speaker array 12 to the microphone 13 and does not depend on the assumed sound velocity value c'.
  • the true sound velocity value c true is 340 m / s in the arrangement of the speaker array 12 and the microphone 13 shown in FIG. 2, for example.
  • FIGS. 5 and 6 the relationship between the assumed sound velocity value c'and the power P ss ( ⁇ , c', c true ) of the observed signal s ( ⁇ , c', c true) at each time is shown in FIGS. 5 and 6. It will be like.
  • the vertical axis indicates the power P ss ( ⁇ , c', c true )
  • the horizontal axis indicates the assumed sound velocity value c'.
  • FIG. 5 shows the power P ss ( ⁇ , c', c true ) at each assumed sound velocity value c'when the frequency of the drive signal d l ( ⁇ , c') is changed.
  • the number of speakers constituting the speaker array 12, that is, the number of channels L is 32 channels.
  • the power P ss ( ⁇ , c', c true ) is the largest when the assumed sound velocity value c'is the true value of 340 m / s at each frequency.
  • FIG. 6 shows the power P ss ( ⁇ , c', c true ) at each assumed sound velocity value c'when the number of speakers constituting the speaker array 12, that is, the number of channels L is changed.
  • the frequency of the drive signal d l ( ⁇ , c') is set to 2 kHz.
  • the drive signal component s d ( ⁇ , c', c true ) is a sound wave component output from the multi-channel speaker array 12, that is , a sound wave based on the drive signal d l ( ⁇ , c') of each speaker l. Represents the components of. Further, the noise component s n ( ⁇ , c', c true ) represents a noise component such as a user's voice, that is, a component other than the drive signal component s d ( ⁇ , c', c true).
  • the observation signal analysis unit 23 selects the signal obtained from the white noise described above as the original signal d ( ⁇ ) of the drive signal d l ( ⁇ , c') on the speaker array 12 side, and then the observation signal.
  • the cross-correlation P sd ( ⁇ , c', c true ) can be obtained, for example, by the following equation (5).
  • ( ⁇ ) * represents the complex conjugate.
  • the original signal d (omega), other signals, that is, the driving signal component s d ( ⁇ , c ', c true) by uncorrelated with the other signals, the cross-correlation P sd ( ⁇ , c', c true) to Does not include noise components derived from other than the drive sound (drive signal component s d ( ⁇ , c', c true)).
  • the cross-correlation P sd ( ⁇ , c', c true ) is equivalent to the power P ss ( ⁇ , c', c true ) of the observed signal s ( ⁇ , c', c true).
  • the observation signal analysis unit 23 can obtain a more probable estimated sound velocity value c true by searching for the maximum value of the cross-correlation P sd ( ⁇ , c', c true).
  • the sound velocity is estimated robustly with respect to the noise component. Can be realized.
  • step S11 the drive signal calculation unit 21 determines the assumed sound velocity value c'.
  • the range of possible values of the assumed sound velocity value c' predetermined, and the drive signal calculation unit 21 sequentially selects the values within the range and sets them as the assumed sound velocity value c'.
  • the value of the assumed sound velocity value c' is determined so that the assumed sound velocity value c'changes continuously with time.
  • step S12 the drive signal calculation unit 21 is based on the spatial filter h l ( ⁇ , c') corresponding to the hypothetical sound velocity value c'determined in step S11 and a predetermined original signal d ( ⁇ ) prepared in advance. By filtering, the drive signal d l ( ⁇ , c') is generated.
  • step S12 the calculation of the above equation (2) is performed, and a drive signal d l ( ⁇ , c') is generated for each speaker l constituting the speaker array 12.
  • the drive signal calculation unit 21 calculates the above equation (1) based on the assumed sound velocity value c', and obtains the spatial filter h l ( ⁇ , c').
  • a spatial filter h l ( ⁇ , c') may be prepared in advance for each assumed sound velocity value c'.
  • step S13 the drive signal calculation unit 21 supplies each drive signal d l ( ⁇ , c') obtained by calculation to each speaker of the speaker array 12, and a sound wave based on the drive signal d l ( ⁇ , c'). That is, the drive sound is output.
  • a beam wave is formed in which the sound waves weaken each other in the reproduction area R11 and the sound waves strengthen each other at the position of the microphone 13. That is, a beam wave propagating from the speaker array 12 to the microphone 13 is formed.
  • the drive signal calculation unit 21 adds the drive signal d l ( ⁇ , c') for sound velocity estimation and the drive signal for content reproduction and supplies the sound wave to the speaker array 12. Is output. As a result, the sound of the content is reproduced together with the driving sound for sound velocity estimation. Therefore, at this time, the sound of the content is reproduced in the reproduction area R11.
  • step S14 the microphone 13 picks up the ambient sound and outputs the observation signal s ( ⁇ , c', c true ) obtained as a result to the acquisition unit 22.
  • step S15 the acquisition unit 22 acquires the observation signal s ( ⁇ , c', c true ) output from the microphone 13 and supplies it to the observation signal analysis unit 23.
  • step S16 the observation signal analysis unit 23 is used to generate the observation signal s ( ⁇ , c', c true ) supplied from the acquisition unit 22 and the drive signal d l ( ⁇ , c') in step S12.
  • the cross-correlation P sd ( ⁇ , c', c true ) is calculated based on the original signal d ( ⁇ ).
  • step S16 the calculation of the above equation (5) is performed, and the cross-correlation P sd ( ⁇ , c', c true ) is calculated for the hypothetical sound velocity value c'determined in step S11.
  • step S17 the drive signal calculation unit 21 determines whether or not to change the assumed sound velocity value c'.
  • steps S12 to S16 when the processing of steps S12 to S16 is performed with all the values within the above range as the assumed sound velocity value c', it is determined that the assumed sound velocity value c'is not changed in step S17.
  • step S17 If it is determined in step S17 that the assumed sound velocity value c'is changed, then the process returns to step S11, and the above-mentioned process is repeated. That is, a new value for which the cross-correlation P sd ( ⁇ , c', c true ) has not yet been obtained is set as the assumed sound velocity value c', and the above-mentioned processing is performed.
  • step S17 when it is determined in step S17 that the assumed sound velocity value c'is not changed, that is, the cross-correlation P sd ( ⁇ , c', c true ) is obtained for all the assumed sound velocity values c'within a predetermined range. If so, the process then proceeds to step S18.
  • step S18 the observation signal analysis unit 23 searches for the peak value of the cross-correlation P sd ( ⁇ , c', c true) obtained for each hypothetical sound velocity value c'.
  • the maximum value in the cross-correlation P sd ( ⁇ , c', c true ) obtained for all the assumed sound velocity values c' is searched as the peak value.
  • step S16 and step S18 i.e. 'cross-correlation P sd corresponding to (omega, c' each assumed sound speed value c, c true) to calculate the, the cross-correlation P sd (omega, c ', the process of searching for a peak value of c true) is the observed signal s ( ⁇ , c', are carried out as analysis for the c true).
  • step S18 is performed immediately after step S16, and when the peak value is obtained by the search, the driving sound is not output for the new assumed sound velocity value c'. May be good. In such a case, it is not necessary to perform the processing of steps S11 to S16 for all the assumed sound velocity values c', so that the calculation amount and the processing time can be reduced.
  • Other power P ss observation signal analysis unit 23 by the formula (3) ( ⁇ , c ' , c true) to calculate the, the power P ss ( ⁇ , c', c true) so as to search for the peak value of You may.
  • step S19 the observation signal analysis unit 23 obtains and outputs an estimated sound velocity value based on the search result in step S18, and the sound velocity estimation process ends.
  • the observation signal analysis unit 23 has a hypothetical sound velocity value c'corresponding to the cross-correlation P sd ( ⁇ , c', c true ) set as the peak value in the process of step S18, that is, the cross-correlation P sd ( ⁇ , c'. , c
  • the hypothetical sound velocity value c'used to generate the drive signal d l ( ⁇ , c') when true ) is calculated is used as the estimated sound velocity value.
  • the sound velocity estimation system uses a signal with strong autocorrelation as the original signal d ( ⁇ ) to form a beam wave in which sound waves strengthen each other only in the direction of the arrangement position of the microphone 13, and the beam wave is formed.
  • the sound velocity value is estimated based on the observation signal s ( ⁇ , c', c true) of.
  • the sound velocity estimation system since a beam wave in which sound waves intensify each other is formed only in the direction of the arrangement position of the microphone 13, it is sufficient to observe the observation signal s ( ⁇ , c', c true ) with a single microphone 13. , The sound velocity can be estimated more easily. That is, the sound velocity can be estimated with a simpler configuration (smaller system system).
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 8 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • An acquisition unit that acquires the observation signal obtained by collecting the sound output from multiple speakers with a single microphone, and A signal processing device including an estimation unit that estimates a sound velocity value between the speaker and the microphone based on the observation signal.
  • the sound output from the plurality of the speakers is a sound based on a drive signal generated based on the assumed sound velocity value which is the assumed value of the sound velocity value.
  • the signal processing device according to (1), wherein the estimation unit estimates the sound velocity value based on the power of the observation signal.
  • a sound based on the drive signal generated while changing the assumed sound velocity value with time is output.
  • the signal processing device uses the assumed sound velocity value when the power of the observation signal is maximized as the estimation result of the sound velocity value.
  • the estimation unit estimates the sound velocity value by calculating the cross-correlation between the observation signal and the original signal for obtaining the drive signal.
  • a beam wave propagating in the direction of the microphone is formed by outputting sound from the plurality of the speakers.
  • the plurality of the speakers are arranged in a straight line, and the speakers are arranged in a straight line.
  • the signal processing device according to any one of (1) to (5), wherein the microphone is arranged on the same straight line as the plurality of the speakers.
  • the signal processing device according to any one of (1) to (6), wherein a sound based on a signal having a strong autocorrelation or a signal in a high frequency band is output from the plurality of the speakers.
  • the signal processing device The observation signal obtained by collecting the sound output from multiple speakers with a single microphone is acquired.
  • the observation signal obtained by collecting the sound output from multiple speakers with a single microphone is acquired.
  • 11 signal processing device 12 speaker array, 13 microphone, 21 drive signal calculation unit, 22 acquisition unit, 23 observation signal analysis unit

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術は、より簡単かつ高精度に音速を推定することができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、観測信号に基づいて、スピーカとマイクロフォンとの間における音速値を推定する推定部とを備える。本技術は音速推定システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より簡単かつ高精度に音速を推定することができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、音響機器を用いて音速を推定する方法としては、スピーカと複数のマイクロフォンを用いる方法が一般的である(例えば、非特許文献1、特許文献1、および特許文献2参照)。
 例えば、一般的な音速推定手法では、複数のマイクロフォンが既知の間隔で配置された状態で、スピーカからパルス音と呼ばれる測定信号が出力される。そして、パルス音の各マイクロフォンへの第一波(直接波)の到達時間差と、スピーカから各マイクロフォンまでの距離差とに基づいて音速が計算される。
P. Annibale and R. Rabenstein, "Speed of sound and air temperature estimation using the TDOA-based localization framework, " Proc. IEEE ICASSP, 2012.
特開平6-300617号公報 特開平3-128422号公報
 しかしながら、上述した技術では、簡単かつ高精度に音速を推定することは困難であった。
 例えば上述した音速推定手法では、コンテンツ等の再生中に音速を推定する場合、パルス音が同一環境下にいる人の耳に届き、耳障りとなってしまうおそれがある。
 また、例えば人の声などのスピーカの駆動音(パルス音)以外の音成分がパルス音と同時にマイクロフォンによって観測された場合、その観測信号からパルス音の第一波を検出することが困難となってしまう。すなわち、高精度に音速を推定することができなくなってしまう。
 さらに、十分高い精度で音速を推定するには、複数の各マイクロフォン間の距離が十分離れている必要があるため、音速推定のためのシステム系が大きくなってしまう。
 本技術は、このような状況に鑑みてなされたものであり、より簡単かつ高精度に音速を推定することができるようにするものである。
 本技術の一側面の信号処理装置は、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する推定部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定するステップを含む。
 本技術の一側面においては、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号が取得され、前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値が推定される。
音速推定システムの構成を示す図である。 スピーカアレイとマイクロフォンの配置例を示す図である。 駆動信号の生成と観測信号について説明する図である。 駆動信号に基づくビーム波の音圧の分布を示す図である。 仮定音速値と観測信号のパワーの関係を示す図である。 仮定音速値と観測信号のパワーの関係を示す図である。 音速推定処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈音速推定システムの構成例〉
 本技術は、駆動信号に基づき複数のスピーカを駆動させて特定の方向でのみ強め合うビーム波を形成し、各スピーカから出力された音波の重ね合わせを単一のマイクロフォンで観測することで、再生エリア下にいる人に知覚されないように音速を推定するものである。
 特に、本技術では自己相関性の強い信号や、高周波数帯域の成分のみを含む信号に基づく音をスピーカから出力させることで、スピーカからの直接波以外の雑音成分に対するロバスト性を向上させ、より高精度に音速を推定することができる。
 例えば、多チャネルのスピーカを用いた音響再生方式は多く存在する。近年では、5.1chや7.1chなどといったサラウンド方式も広く普及し、多数のスピーカを用いた音場合成システムなども存在する。
 なお、以下では、チャネル数が4以上であるものを多チャネルと称することとする。多チャネルのスピーカ、すなわち複数のチャネルのスピーカからなるスピーカアレイでは、複数の各スピーカから互いに異なる音を出力することが可能である。換言すれば、複数の各スピーカを独立に制御することが可能である。
 多チャネルのスピーカを用いた多くの空間音響システムでは、再生環境下における音速値を用いることで、より高い音響再生性能を実現することができる。すなわち、より正確に所望の音場を形成し、高い臨場感を得ることができる。
 これは、多チャネルのスピーカを用いた空間音響システム、つまり波面合成をはじめとする音場制御技術では、音速値に基づいて各スピーカの駆動信号が生成されるためである。音速値に基づき生成された駆動信号により各スピーカから音が出力されると、それらの音の位相差(波動性)により音場が形成される。
 また、駆動信号の計算時に用いられる仮定の音速値と、実際の音の再生環境下における真の音速値とに乖離がある場合には、空間内において音の位相、すなわち音波が強め合う位置にずれが生じる。そうすると、形成しようとする所望の音場と、実際に形成される音場とに誤差が生じてしまう。
 したがって、多チャネルのスピーカで音場制御を行う場合、再生環境における音速値を正確に、すなわち高い精度で推定することが重要である。
 本技術によれば、多チャネルのスピーカが既に設置されている環境下で、音響機器を用いて、より簡単かつ高精度に音速を推定することができる。
 図1は、本技術を適用した音速推定システムの一実施の形態の構成例を示す図である。
 図1に示す音速推定システムは、信号処理装置11、スピーカアレイ12、およびマイクロフォン13を有している。
 本技術では、音速推定のために、既に設置済みと想定される多チャネルスピーカシステムに加えて、単一のマイクロフォンが最低限必要とされている。
 そのため、図1の音速推定システムでは、多チャネルスピーカシステムとして、独立に制御可能な複数のスピーカからなるスピーカアレイ12と、単一のマイクロフォン13とが設けられている。
 また、スピーカアレイ12の前方には再生エリアR11が設けられており、ユーザ(受聴者)が再生エリアR11内で、スピーカアレイ12から出力されるコンテンツ等の音を聴取することが想定されている。
 マイクロフォン13は、設置済みの任意の多チャネルのスピーカアレイ12に対して、再生エリアR11外における、スピーカアレイ12によりビーム波を形成しやすい位置に配置されている。換言すれば、マイクロフォン13は、スピーカアレイ12から見て再生エリアR11のある方向とは異なる方向に配置されている。
 音速推定システムでは、多チャネルのスピーカアレイ12に対して、各スピーカを駆動させるための駆動信号を自由に決定し、それらのスピーカから出力される音波をマイクロフォン13で観測できるようになされている。
 信号処理装置11は、スピーカアレイ12を構成する各スピーカの駆動信号を決定する駆動信号計算部21と、マイクロフォン13で得られた観測信号を取得する取得部22と、観測信号を解析する観測信号解析部23とを有している。
 なお、ここでは駆動信号計算部21と、取得部22および観測信号解析部23とが同じ装置(信号処理装置11)に設けられる例について説明する。
 しかし、これに限らず、駆動信号計算部21、取得部22、および観測信号解析部23のうちのいくつかは、互いに異なる装置に設けられ、必要に応じて、それらの装置が有線または無線により相互に接続されるようにしてもよい。
 駆動信号計算部21は、スピーカアレイ12の各スピーカを駆動させるための駆動信号を計算し、得られた駆動信号をスピーカアレイ12に供給する。
 すると、スピーカアレイ12の各スピーカは、駆動信号計算部21から供給された駆動信号に基づいて駆動し、駆動信号に基づく音波(音)を出力する。
 これにより、再生エリアR11では所望のコンテンツの音が再生される。また、再生エリアR11外のマイクロフォン13近傍のエリア(領域)では、各スピーカから出力された音速推定のための音波が重ね合わせられ、音波のビーム(以下、ビーム波とも称する)が形成される。特に、ここでは音速推定のためのビーム波として、マイクロフォン13のある方向へと伝搬するビーム波が形成され、このビーム波がマイクロフォン13によって観測(収音)される。
 駆動信号計算部21では、仮定音速値が設定されて、その仮定音速値に基づいて、マイクロフォン13近傍において音速推定のためのビーム波が観測されるように、各スピーカの駆動信号が計算される。
 ここでいう仮定音速値とは、実際のコンテンツ等の再生環境、すなわち例えばスピーカアレイ12とマイクロフォン13との間における音速値の仮定値である。換言すれば、仮定音速値とはスピーカアレイ12から出力される音の音速値の仮定値である。
 マイクロフォン13近傍、つまり音速推定のためのビーム波の観測位置においては、そのビーム波の仮定音速値と、ビーム波の真の音速値とが一致する場合に、最もビーム波、すなわち各スピーカからの音波が強め合い、観測信号のパワーが最大となる。
 そこで駆動信号計算部21は、時間とともに仮定音速値を変化させながら駆動信号を計算し、スピーカアレイ12から音を出力させる。
 取得部22は、マイクロフォン13が周囲の音を収音することにより得られた観測信号を取得し、観測信号解析部23に供給する。
 観測信号解析部23は、取得部22から供給された観測信号に対する解析を行い、音速値を推定する推定部として機能する。
 すなわち、観測信号解析部23では、観測信号のパワーに基づいてスピーカアレイ12とマイクロフォン13との間の真の音速値が推定される。具体的には、例えば観測信号解析部23では、観測信号のパワーが最も大きくなるような仮定音速値がサーチ(探索)され、その探索結果が音速値の推定値(推定結果)とされる。
 なお、図1に示した例では、基本的にはスピーカアレイ12を構成するスピーカの数は4以上であることが想定されているが、スピーカ数は2以上であればよく、またビーム波を観測するためのマイクロフォン13の数は2以上であってもよい。
 さらに、図1の例では多チャネルのスピーカアレイ12が設置済みである場合を想定しているが、音速推定のためのデバイスとして多チャネルでない複数のスピーカと、最低でも1本以上のマイクロフォン13を導入することも考えられる。
 その他、スピーカアレイ12を構成する複数のスピーカは、直線状や矩形状など、どのような形状で並べられて配置されてもよく、マイクロフォン13の配置位置も任意の位置とすることができる。
〈信号処理装置の各部について〉
(駆動信号計算部について)
 次に、信号処理装置11を構成する駆動信号計算部21と観測信号解析部23について、より詳細に説明する。まず、駆動信号計算部21について説明する。
 この実施の形態では、駆動信号計算部21により計算される駆動信号と、マイクロフォン13で得られる観測信号とを周波数領域で考えるとする。また、以下では、スピーカアレイ12はL個のスピーカ(ラウドスピーカ)から構成されるものとして説明を行う。
 駆動信号計算部21では、マイクロフォン13が配置された位置rmicでビーム波が形成されるように、スピーカアレイ12の各スピーカl(但し、l=1,…,L)の駆動信号dl(ω,c’)が決定(生成)される。
 なお、c’は音速に関する引数を表しており、ここではc’は仮定音速値に相当する。また、ωは角周波数を表している。
 適切なマイクロフォン13の位置rmicと各スピーカlの駆動信号dl(ω,c’)は、スピーカアレイ12を構成する各スピーカlの配置条件に依存する。
 例えば図2に示すように、スピーカアレイ12を構成する各スピーカlが直線状に等間隔で並んでいるとする。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 この例では、スピーカアレイ12を構成する各スピーカlが図中、横方向に直線状に並べられて配置されている。特に、ここでは互いに隣接するスピーカl間の距離がΔxとなっている。つまり、各スピーカlは距離Δxの間隔で並べられている。
 このような場合、例えば図2に示されるように、各スピーカlが並んでいる直線上の任意の位置、つまり各スピーカlと同一直線上の任意の位置にマイクロフォン13が配置されるようにすればよい。
 そうすれば、駆動信号dl(ω,c’)を生成するための空間フィルタ、より詳細には空間フィルタのフィルタ係数hl(ω,c’)を次式(1)に示すような遅延フィルタとすることで、各スピーカlから出力(放射)された音波がマイクロフォン13の位置rmicにおいて強め合うビーム波を形成することが可能である。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)においてiは虚数単位を表しており、ωは角周波数を表している。また、Δxは互いに隣接するスピーカl間の距離(間隔)を表しており、c’は仮定音速値を表している。
 駆動信号計算部21は、予め用意された所定の原信号d(ω)に対して、空間フィルタhl(ω,c’)によるフィルタリングを行うことで、スピーカlごとの駆動信号dl(ω,c’)を生成する。すなわち、駆動信号計算部21は、次式(2)に示すように空間フィルタhl(ω,c’)と原信号d(ω)とを畳み込むことで、スピーカlの駆動信号dl(ω,c’)を計算する。
Figure JPOXMLDOC01-appb-M000002
 したがって例えば図3に示すように、1つの原信号d(ω)に対してスピーカアレイ12を構成するスピーカlごとに、式(2)が計算されて空間フィルタhl(ω,c’)と原信号d(ω)とが畳み込まれ、スピーカlごとの駆動信号dl(ω,c’)が求められる。
 そして、それらの駆動信号dl(ω,c’)に基づいて各スピーカlが駆動され、マイクロフォン13の方向へと伝搬するビーム波が形成される。これにより、マイクロフォン13では、周囲の音を収音した結果として、観測信号s(ω,c’,ctrue)が得られる。なお、ctrueは、スピーカアレイ12から出力した音波の実際の音速値、すなわち音速の真値を表している。
 このように、空間フィルタhl(ω,c’)に基づいて得られた駆動信号dl(ω,c’)でスピーカを駆動させた場合、例えば図4に示すように同一直線上における音波成分が大きくなる分、スピーカアレイ12と直交する方向における音波成分は小さくなる。
 図4において図中、横方向および縦方向はスピーカアレイ12が配置された空間内における方向を示しており、図中の濃淡は音波成分の大きさ(パワー)を示している。すなわち、図4は、駆動信号dl(ω,c’)に基づくビーム波の音圧分布を示している。
 特に、ここでは図中、横方向はスピーカアレイ12を構成するスピーカが並べられている方向を示している。
 図4では、矢印Q11に示す位置にスピーカアレイ12が配置されており、スピーカアレイ12を構成するスピーカが並ぶ方向、特にスピーカアレイ12と、その図中、右側の位置において、音波のパワーが大きいことが分かる。
 また、スピーカアレイ12に対して、図中、上方向および下方向の各位置では、音波のパワーが小さくなっていることが分かる。
 したがって、例えば矢印Q12に示す位置にマイクロフォン13を配置し、矢印Q13に示す位置を再生エリアR11とすれば、マイクロフォン13で十分大きなパワーのビーム波を観測し、再生エリアR11でコンテンツを受聴するユーザ(受聴者)の耳に物理的に届く音波のパワーを十分小さくすることができる。
 これにより、スピーカアレイ12から出力された、音速推定のための音をユーザに知覚させることなく、音速値を推定することができる。
 特に、音速推定用の駆動信号dl(ω,c’)の生成に用いられる原信号d(ω)として、通常のスピーカで駆動可能な範囲内の高周波数帯域の成分のみが含まれる信号を用いれば、音速推定のための音をさらにユーザに知覚させにくくすることができる。
 また、例えば自己相関性が強く、その自己相関関数がt=0にピークを有するようなデルタ関数δ(t)に近似できる信号を原信号d(ω)として用いるようにしてもよい。そのような信号は、他の信号との相関が非常に小さいという性質をもつため、音速推定のための原信号d(ω)として用いるのに適している。
 デルタ関数δ(t)に近似できる信号の例として、白色雑音などの擬似乱数族の信号がある。例えば白色雑音の信号に対してハイパスフィルタによりフィルタリングを行うことで得られる信号も、もとの白色雑音とほぼ同様の性質をもつため、そのような信号を原信号d(ω)として用いるようにしてもよい。
 なお、原信号d(ω)は、このような自己相関性および相互相関性に関する性質を満たすような信号であれば、白色雑音から得られる信号などに限らず、他のどのような信号であってもよい。
 例えば、よりビーム波の音圧差が生じるように、低周波数成分からなる信号を原信号d(ω)として用いるようにしてもよい。
 以上のような原信号d(ω)を用いることで、観測信号解析部23で観測信号を解析する際に、スピーカアレイ12のスピーカの駆動音以外のノイズ成分に対してロバストな処理を行うことができる。すなわち、ノイズ成分に対する頑健性を向上させることができる。さらに、再生エリアR11にいるユーザに音速推定のための音を知覚させにくくすることができる。
(観測信号解析部について)
 次に、観測信号解析部23について説明する。
 観測信号解析部23は、マイクロフォン13が収音することにより得られた観測信号s(ω,c’,ctrue)を解析することで音速の推定値を得る。
 例えば、観測信号s(ω,c’,ctrue)の実信号領域としてのパワーPss(ω,c’,ctrue)は、次式(3)の計算により得られる。
Figure JPOXMLDOC01-appb-M000003
 なお、式(3)においてP(ω,ctrue)はスピーカアレイ12の各スピーカからマイクロフォン13への伝達のみに依存し、仮定音速値c’に依存しない定数項を表している。
 式(3)により求まるパワーPss(ω,c’,ctrue)は、音速値ctrueの仮定値である仮定音速値c’が、実際の音速値ctrueと一致する場合に最大となる。
 したがって、例えば駆動信号dl(ω,c’)を生成する際に、時間とともに仮定音速値c’を変化させていき、観測信号解析部23がパワーPss(ω,c’,ctrue)をプロットするなどして、パワーPss(ω,c’,ctrue)の最大値を探索することで、より確からしい音速値ctrueの推定値、すなわち仮定音速値c’を得ることができる。
 具体的な例として、例えば図2に示したスピーカアレイ12およびマイクロフォン13の配置において、真の音速値ctrueが340m/sであったとする。
 この場合、仮定音速値c’と、各時刻の観測信号s(ω,c’,ctrue)のパワーPss(ω,c’,ctrue)との関係は、図5および図6に示すようになる。なお、図5および図6において、縦軸はパワーPss(ω,c’,ctrue)を示しており、横軸は仮定音速値c’を示している。
 図5は、駆動信号dl(ω,c’)の周波数を変化させたときの各仮定音速値c’におけるパワーPss(ω,c’,ctrue)を示している。特に、図5の例ではスピーカアレイ12を構成するスピーカの数、すなわちチャネル数Lは、32チャネルとされている。
 図5から分かるように、各周波数において仮定音速値c’がその真値である340m/sであるときに最もパワーPss(ω,c’,ctrue)が大きくなっている。
 また、図6は、スピーカアレイ12を構成するスピーカの数、すなわちチャネル数Lを変化させたときの各仮定音速値c’におけるパワーPss(ω,c’,ctrue)を示している。特に、図6の例では駆動信号dl(ω,c’)の周波数は2kHzとされている。
 図6における場合でも、図5における場合と同様に、チャネル数Lによらず、仮定音速値c’がその真値である340m/sであるときに最もパワーPss(ω,c’,ctrue)が大きくなっている。
 図5や図6の例からも分かるように、仮定音速値c’が真値である340m/sのときに観測信号s(ω,c’,ctrue)のパワーPss(ω,c’,ctrue)が最大となる。このことから、音速値ctrueの推定は、図5や図6に示した仮定音速値c’とパワーPss(ω,c’,ctrue)の関係を示すグラフのピーク、つまりパワーPss(ω,c’,ctrue)の最大値を探索する問題に帰着することが分かる。
 いま、実環境を想定し、観測信号s(ω,c’,ctrue)に、駆動信号成分sd(ω,c’,ctrue)に加えて、その他の雑音成分sn(ω,c’,ctrue)も含まれているものとする。
 すなわち、観測信号s(ω,c’,ctrue)が次式(4)に示すように、駆動信号成分sd(ω,c’,ctrue)と雑音成分sn(ω,c’,ctrue)の和により表されるものとする。
Figure JPOXMLDOC01-appb-M000004
 なお、駆動信号成分sd(ω,c’,ctrue)は、多チャネルのスピーカアレイ12から出力された音波の成分、すなわち各スピーカlの駆動信号dl(ω,c’)に基づく音波の成分を表している。また、雑音成分sn(ω,c’,ctrue)は、例えばユーザの声等のノイズ成分、すなわち駆動信号成分sd(ω,c’,ctrue)以外の成分を表している。
 この場合、観測信号解析部23は、スピーカアレイ12側の駆動信号dl(ω,c’)の原信号d(ω)として、上述した白色雑音から得られる信号を選択したうえで、観測信号s(ω,c’,ctrue)のパワーPss(ω,c’,ctrue)の代わりに観測信号s(ω,c’,ctrue)と原信号d(ω)との相互相関Psd(ω,c’,ctrue)を計算する。
 相互相関Psd(ω,c’,ctrue)は、例えば次式(5)により得ることができる。なお、式(5)において(・)は複素共役を表している。
Figure JPOXMLDOC01-appb-M000005
 原信号d(ω)と、他信号、すなわち駆動信号成分sd(ω,c’,ctrue)以外の信号との無相関性により、相互相関Psd(ω,c’,ctrue)には、駆動音(駆動信号成分sd(ω,c’,ctrue))以外に由来する雑音成分は含まれない。
 すなわち、雑音成分sn(ω,c’,ctrue)と原信号d(ω)について以下の式(6)に示す関係が成立するので、相互相関Psd(ω,c’,ctrue)について次式(7)が成り立つ。つまり、相互相関Psd(ω,c’,ctrue)は観測信号s(ω,c’,ctrue)のパワーPss(ω,c’,ctrue)と等価である。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 したがって、観測信号解析部23では、相互相関Psd(ω,c’,ctrue)の最大値を探索することで、より確からしい音速値ctrueの推定値を得ることができる。
 このようにすることで、観測信号s(ω,c’,ctrue)にマイクロフォン13の周囲で発生する物音や人の話し声等の雑音が含まれる場合でも、雑音成分に対してロバストな音速推定を実現することができる。
〈音速推定処理の説明〉
 続いて、図1に示した音速推定システムの動作について説明する。すなわち、以下、図7のフローチャートを参照して、音速推定システムによる音速推定処理について説明する。
 ステップS11において駆動信号計算部21は、仮定音速値c’を決定する。
 例えば仮定音速値c’の取り得る値の範囲が予め定められており、駆動信号計算部21は、その範囲内の値を順番に選択し、仮定音速値c’とする。このとき、例えば仮定音速値c’が時間とともに連続的に変化するように仮定音速値c’の値が決定される。
 ステップS12において駆動信号計算部21は、ステップS11で決定した仮定音速値c’に対応する空間フィルタhl(ω,c’)と、予め用意された所定の原信号d(ω)とに基づいてフィルタリングを行うことで、駆動信号dl(ω,c’)を生成する。
 例えばステップS12では、上述した式(2)の計算が行われて、スピーカアレイ12を構成するスピーカlごとに駆動信号dl(ω,c’)が生成される。
 なお、式(2)の計算にあたっては、駆動信号計算部21が仮定音速値c’に基づいて上述の式(1)を計算し、空間フィルタhl(ω,c’)を求めるようにしてもよいし、仮定音速値c’ごとに予め空間フィルタhl(ω,c’)が用意されているようにしてもよい。
 ステップS13において駆動信号計算部21は、計算により得られた各駆動信号dl(ω,c’)をスピーカアレイ12の各スピーカに供給し、駆動信号dl(ω,c’)に基づく音波、すなわち駆動音を出力させる。
 これにより、スピーカアレイ12の周囲では、再生エリアR11で音波が弱め合い、マイクロフォン13の位置で音波が強め合うビーム波が形成される。すなわち、スピーカアレイ12からマイクロフォン13へと伝搬するビーム波が形成される。
 なお、より詳細には、駆動信号計算部21は音速推定のための駆動信号dl(ω,c’)と、コンテンツ再生のための駆動信号とを加算してスピーカアレイ12に供給し、音波を出力させる。これにより、音速推定のための駆動音とともにコンテンツの音も再生される。したがって、このときには再生エリアR11でコンテンツの音が再生されることになる。
 ステップS14においてマイクロフォン13は、周囲の音を収音し、その結果得られた観測信号s(ω,c’,ctrue)を取得部22に出力する。
 ステップS15において取得部22は、マイクロフォン13から出力された観測信号s(ω,c’,ctrue)を取得し、観測信号解析部23に供給する。
 ステップS16において観測信号解析部23は、取得部22から供給された観測信号s(ω,c’,ctrue)と、ステップS12での駆動信号dl(ω,c’)の生成に用いられた原信号d(ω)とに基づいて、相互相関Psd(ω,c’,ctrue)を計算する。
 例えばステップS16では、上述した式(5)の計算が行われ、ステップS11で決定された仮定音速値c’について相互相関Psd(ω,c’,ctrue)が計算される。
 ステップS17において駆動信号計算部21は、仮定音速値c’を変化させるか否かを判定する。
 例えば、上述した範囲内の全ての値を仮定音速値c’としてステップS12乃至ステップS16の処理が行われた場合、ステップS17では仮定音速値c’を変化させないと判定される。
 ステップS17において仮定音速値c’を変化させると判定された場合、その後、処理はステップS11に戻り、上述した処理が繰り返し行われる。すなわち、まだ相互相関Psd(ω,c’,ctrue)が求められていない新たな値が仮定音速値c’とされて、上述した処理が行われる。
 これに対して、ステップS17において仮定音速値c’を変化させないと判定された場合、すなわち所定範囲内の仮定音速値c’全てについて相互相関Psd(ω,c’,ctrue)が得られた場合、その後、処理はステップS18へと進む。
 ステップS18において観測信号解析部23は、各仮定音速値c’について求めた相互相関Psd(ω,c’,ctrue)のピーク値を探索する。ここでは、全ての仮定音速値c’について求めた相互相関Psd(ω,c’,ctrue)のなかの最大値がピーク値として探索される。
 観測信号解析部23では、ステップS16およびステップS18の処理、つまり各仮定音速値c’に対応する相互相関Psd(ω,c’,ctrue)を計算し、その相互相関Psd(ω,c’,ctrue)のピーク値を探索する処理が、観測信号s(ω,c’,ctrue)に対する解析処理として行われる。
 なお、ここでは予め所定範囲の全ての仮定音速値c’について相互相関Psd(ω,c’,ctrue)を求めてからピーク値を探索する例について説明した。
 しかし、これに限らず、例えばステップS16の直後にステップS18の処理を行い、探索によりピーク値が得られた時点で、新たな仮定音速値c’については駆動音の出力を行わないようにしてもよい。そのような場合、全ての仮定音速値c’についてステップS11乃至ステップS16の処理を行う必要がなくなるので、演算量と処理時間を削減することができる。その他、観測信号解析部23が式(3)によりパワーPss(ω,c’,ctrue)を計算し、そのパワーPss(ω,c’,ctrue)のピーク値を探索するようにしてもよい。
 ステップS19において観測信号解析部23は、ステップS18での探索結果に基づいて、音速の推定値を求めて出力し、音速推定処理は終了する。
 例えば観測信号解析部23は、ステップS18の処理でピーク値とされた相互相関Psd(ω,c’,ctrue)に対応する仮定音速値c’、すなわち相互相関Psd(ω,c’,ctrue)が計算されたときの駆動信号dl(ω,c’)の生成に用いられた仮定音速値c’を、音速値の推定値とする。
 以上のようにして音速推定システムは、自己相関性の強い信号等を原信号d(ω)として用いて、マイクロフォン13の配置位置の方向のみで音波が強め合うビーム波を形成し、そのビーム波の観測信号s(ω,c’,ctrue)に基づいて音速値を推定する。
 このようにすることで、雑音成分に対してロバストな音速推定を実現し、より高精度に、すなわち、より正確に音速を推定することができる。しかも、音速推定システムでは、マイクロフォン13の配置位置の方向のみで音波が強め合うビーム波を形成するため、単一のマイクロフォン13で観測信号s(ω,c’,ctrue)を観測すればよく、より簡単に音速推定を行うことができる。すなわち、より簡単な構成(より小さいシステム系)で音速推定を行うことができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、
 前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する推定部と
 を備える信号処理装置。
(2)
 前記複数の前記スピーカから出力された音は、前記音速値の仮定値である仮定音速値に基づいて生成された駆動信号に基づく音であり、
 前記推定部は、前記観測信号のパワーに基づいて前記音速値を推定する
 (1)に記載の信号処理装置。
(3)
 前記複数の前記スピーカからは、時間とともに前記仮定音速値を変化させながら生成された前記駆動信号に基づく音が出力され、
 前記推定部は、前記観測信号のパワーが最大となるときの前記仮定音速値を、前記音速値の推定結果とする
 (2)に記載の信号処理装置。
(4)
 前記推定部は、前記観測信号と、前記駆動信号を得るための原信号との相互相関を計算することにより前記音速値を推定する
 (3)に記載の信号処理装置。
(5)
 前記複数の前記スピーカが音を出力することにより、前記マイクロフォンの方向へと伝搬するビーム波が形成される
 (1)乃至(4)の何れか一項に記載の信号処理装置。
(6)
 前記複数の前記スピーカは直線状に配置されており、
 前記マイクロフォンは前記複数の前記スピーカと同一直線上に配置されている
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記複数の前記スピーカからは、自己相関性の強い信号または高周波数帯域の信号に基づく音が出力される
 (1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 信号処理装置が、
 複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
 前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
 信号処理方法。
(9)
 複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
 前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 信号処理装置, 12 スピーカアレイ, 13 マイクロフォン, 21 駆動信号計算部, 22 取得部, 23 観測信号解析部

Claims (9)

  1.  複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、
     前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する推定部と
     を備える信号処理装置。
  2.  前記複数の前記スピーカから出力された音は、前記音速値の仮定値である仮定音速値に基づいて生成された駆動信号に基づく音であり、
     前記推定部は、前記観測信号のパワーに基づいて前記音速値を推定する
     請求項1に記載の信号処理装置。
  3.  前記複数の前記スピーカからは、時間とともに前記仮定音速値を変化させながら生成された前記駆動信号に基づく音が出力され、
     前記推定部は、前記観測信号のパワーが最大となるときの前記仮定音速値を、前記音速値の推定結果とする
     請求項2に記載の信号処理装置。
  4.  前記推定部は、前記観測信号と、前記駆動信号を得るための原信号との相互相関を計算することにより前記音速値を推定する
     請求項3に記載の信号処理装置。
  5.  前記複数の前記スピーカが音を出力することにより、前記マイクロフォンの方向へと伝搬するビーム波が形成される
     請求項1に記載の信号処理装置。
  6.  前記複数の前記スピーカは直線状に配置されており、
     前記マイクロフォンは前記複数の前記スピーカと同一直線上に配置されている
     請求項1に記載の信号処理装置。
  7.  前記複数の前記スピーカからは、自己相関性の強い信号または高周波数帯域の信号に基づく音が出力される
     請求項1に記載の信号処理装置。
  8.  信号処理装置が、
     複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
     前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
     信号処理方法。
  9.  複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
     前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/019304 2020-06-05 2021-05-21 信号処理装置および方法、並びにプログラム WO2021246195A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020098637 2020-06-05
JP2020-098637 2020-06-05

Publications (1)

Publication Number Publication Date
WO2021246195A1 true WO2021246195A1 (ja) 2021-12-09

Family

ID=78831027

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019304 WO2021246195A1 (ja) 2020-06-05 2021-05-21 信号処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2021246195A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08271627A (ja) * 1995-03-31 1996-10-18 Hitachi Commun Syst Inc スピ−カ及びマイク間距離測定装置
JP2004503764A (ja) * 2000-06-12 2004-02-05 アデスト テクノベーション ピーティーイー. リミテッド 音速測定装置及びその方法
JP2013531785A (ja) * 2010-05-20 2013-08-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を使用した距離推定
JP2013536630A (ja) * 2010-07-26 2013-09-19 クゥアルコム・インコーポレイテッド 空間における、音響イメージのエンハンスされた生成のための、システム、方法および装置
JP2015173879A (ja) * 2014-03-17 2015-10-05 古野電気株式会社 音速測定装置、音速測定方法、及び音速測定プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08271627A (ja) * 1995-03-31 1996-10-18 Hitachi Commun Syst Inc スピ−カ及びマイク間距離測定装置
JP2004503764A (ja) * 2000-06-12 2004-02-05 アデスト テクノベーション ピーティーイー. リミテッド 音速測定装置及びその方法
JP2013531785A (ja) * 2010-05-20 2013-08-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を使用した距離推定
JP2013536630A (ja) * 2010-07-26 2013-09-19 クゥアルコム・インコーポレイテッド 空間における、音響イメージのエンハンスされた生成のための、システム、方法および装置
JP2015173879A (ja) * 2014-03-17 2015-10-05 古野電気株式会社 音速測定装置、音速測定方法、及び音速測定プログラム

Similar Documents

Publication Publication Date Title
EP3320692B1 (en) Spatial audio processing apparatus
US11310617B2 (en) Sound field forming apparatus and method
JP5229053B2 (ja) 信号処理装置、および信号処理方法、並びにプログラム
EP2633697B1 (en) Three-dimensional sound capturing and reproducing with multi-microphones
EP3823301B1 (en) Sound field forming apparatus and method and program
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP6604331B2 (ja) 音声処理装置および方法、並びにプログラム
JP2011061422A (ja) 情報処理装置、情報処理方法およびプログラム
JP2013148576A (ja) 変調された背景音を利用して位置特定を行う携帯装置、コンピュータプログラム、および方法
WO2015137146A1 (ja) 音場収音装置および方法、音場再生装置および方法、並びにプログラム
US7116788B1 (en) Efficient head related transfer function filter generation
CN110875056A (zh) 语音转录设备、系统、方法、及电子设备
JP7036008B2 (ja) 局所消音音場形成装置および方法、並びにプログラム
WO2021246195A1 (ja) 信号処理装置および方法、並びにプログラム
JP2006227328A (ja) 音声処理装置
JP2004274234A (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
WO2021212287A1 (zh) 音频信号处理方法、音频处理装置及录音设备
JP6323901B2 (ja) 収音装置および収音方法、並びにプログラム
JPWO2018066384A1 (ja) 信号処理装置および方法、並びにプログラム
WO2021251182A1 (ja) 信号処理装置および方法、並びにプログラム
Firoozabadi et al. Multi-speaker localization by central and lateral microphone arrays based on the combination of 2D-SRP and subband GEVD algorithms
JP2018142822A (ja) 音響信号処理装置、方法及びプログラム
JP2006180392A (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
Chisaki et al. Network-based multi-channel signal processing using the precision time protocol
JP4780497B2 (ja) 信号受信装置及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21818790

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21818790

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP