WO2020217781A1 - 到来方向推定装置、システム、及び、到来方向推定方法 - Google Patents

到来方向推定装置、システム、及び、到来方向推定方法 Download PDF

Info

Publication number
WO2020217781A1
WO2020217781A1 PCT/JP2020/011534 JP2020011534W WO2020217781A1 WO 2020217781 A1 WO2020217781 A1 WO 2020217781A1 JP 2020011534 W JP2020011534 W JP 2020011534W WO 2020217781 A1 WO2020217781 A1 WO 2020217781A1
Authority
WO
WIPO (PCT)
Prior art keywords
doa
frequency
weighting coefficient
signal
arrival
Prior art date
Application number
PCT/JP2020/011534
Other languages
English (en)
French (fr)
Inventor
ロヒス マース
スリカンス ナギセティ
チョンスン リム
江原 宏幸
明久 川村
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to EP20795773.9A priority Critical patent/EP3962101A4/en
Priority to JP2021515869A priority patent/JP7469298B2/ja
Priority to US17/600,513 priority patent/US11994605B2/en
Publication of WO2020217781A1 publication Critical patent/WO2020217781A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/8027By vectorial composition of signals received by plural, differently-oriented transducers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present disclosure relates to an arrival direction estimation device, a system, and an arrival direction estimation method.
  • the sound field is recorded using, for example, an acoustic capturing device.
  • the acoustic capturing device is composed of, for example, a plurality of directional microphones or omnidirectional microphones arranged in a sound field in a regular tetrahedron shape or a spherical shape.
  • the acoustic information recorded by the acoustic capturing device is used, for example, to estimate the direction of each sound source existing in the sound field (in other words, the direction of arrival of a sound wave (or an acoustic signal)).
  • the non-limiting examples of the present disclosure contribute to the provision of an arrival direction estimation device, a system, and an arrival direction estimation method capable of improving the estimation accuracy of the arrival direction of an acoustic signal.
  • the arrival direction estimation device is based on the difference between the unit vectors indicating the direction of the sound source in each of the plurality of frequency components of the signal recorded in the microphone array, and the frequencies for the plurality of frequency components. It includes a calculation circuit for calculating each weighting coefficient and an estimation circuit for estimating the arrival direction of the signal from the sound source based on the frequency weighting coefficient.
  • the extraction performance of acoustic object sounds can be improved.
  • Block diagram showing an example of recording multiple sound fields with an Ambisonics microphone The figure which shows an example of the method of estimating PIV using an SMA signal.
  • Block diagram showing a configuration example of the weighting coefficient calculation unit Diagram showing a selection example of DoA unit vector A block diagram showing a configuration example of an acoustic signal transmission system according to an embodiment.
  • a block diagram showing a configuration example of a part of the arrival direction estimation device according to the embodiment A block diagram showing a configuration example of an arrival direction estimation device according to an embodiment.
  • a block diagram showing a configuration example of a weighting coefficient calculation unit according to an embodiment Block diagram showing a configuration example of the weighting coefficient calculation unit according to variation 1.
  • the ambisonics signal corresponding to the sound field can be obtained directly from the B-format microphone or indirectly from the A-format microphone.
  • this sound field can be represented by, for example, first-order Ambisonics (FOA).
  • the sound field can be represented by Higher Order Ambisonics (HOA) from a signal obtained by using a spherical microphone array (Spherical Microphone Array, SMA).
  • HOA ambisonics signal expressed by HOA
  • sound waves arriving from multiple sound sources existing in the sound field for example, also referred to as acoustic signal, audio signal or audio-acoustic signal.
  • DoA Direction of Arrival
  • DoA estimation of acoustic signals can be applied to sound source detection or tracking, for example, in robots or surveillance systems. Also, DoA estimation of acoustic signals can be applied, for example, to preprocessing of acoustic beamformers or acoustic codecs. The DoA estimation of the sound source can also be applied to the preprocessing of a 6DoF (Degrees of Freedom) application such as a sound field navigation system using cooperative blind separation (for example, Collaborative Blind Source Separation, CBSS).
  • 6DoF Degrees of Freedom
  • CBSS Collaborative Blind Source Separation
  • the signal recorded in the SMA (for example, called a microphone input signal) is converted from the time domain to the frequency domain by using, for example, a Fourier transform (for example, Fast Fourier Transform, FFT). Then, the converted microphone input signal is further converted into a spherical harmonic coefficient (SHC) or a HOA signal by using a spherical harmonic transformation (SHT).
  • SHC spherical harmonic coefficient
  • SHT spherical harmonic transformation
  • the difficulty of DoA estimation increases as the number of sound sources increases, because there are room echoes, background noise, or additive noise of the microphone. Further, for example, when a plurality of sound sources are active at the same time, the signals overlap, or when the plurality of sound sources are close to each other, the difficulty of DoA estimation becomes even higher.
  • FIG. 1 is a schematic diagram showing an example of recording signals from a sound field including sound sources S 1 to S n by the Ambisonics microphone M.
  • the Ambisonics microphone M has, for example, Q microphones arranged on the surface.
  • FIG. 1 shows an example of the path of the direct wave and the reflected wave from each sound source S 1 to S n to the Ambisonics microphone M.
  • a pseudo-intensity vector (PIV) is calculated (in other words, estimated).
  • FIG. 2 shows an example of a method of estimating PIV using an SMA signal.
  • the SMA records the sound pressure p (n, r q ) with respect to the position r q at time n (time n is represented by t, ⁇ and is represented by p (t, ⁇ , r q ). It may be. Where t is the time in frame ⁇ ).
  • the sound pressure p (n, r q ) is converted into the frequency domain signal P (k, ⁇ , r q ) by the short-time Fourier transform (STFT).
  • STFT short-time Fourier transform
  • k indicates the frequency bin number
  • indicates the time frame number.
  • the frequency domain signal P (k, ⁇ , r q ) SHT is performed on, (in other words, also called Eigenbeam) Ambisonics signal P lm (k) is obtained.
  • a PIV (eg, represented as I (k)) is calculated based on the first four channels of the Ambisonics signal Pl .
  • the four channels of Plm correspond to W, X, Y, and Z channels.
  • the W channel corresponds to an omnidirectional signal component.
  • the X, Y, and Z channels correspond to, for example, signal components in the vertical direction, the horizontal direction, and the front-rear direction, respectively.
  • the PIV I (k) is calculated using, for example, the ambisonics signal Pl m (k) using the following equation (1).
  • k indicates the frequency bin number.
  • P 00 * (k) indicates the complex common benefit of the zero-order eigenbeam P 00 (k) (for example, W channel).
  • P x (k), P y (k), and P z (k) are the primary eigenbeams P 1 (-1) (k), P 10 (k), and P 11 (k) x, It is obtained by a linear combination using spherical harmonics for aligning (projecting) on the y and z axes, respectively.
  • a unit vector (also called a DoA unit vector) u indicating the direction of the sound source is given by, for example, the following equation (2).
  • a low arithmetic estimation consistency (EC) approach has been proposed (see, for example, Non-Patent Document 1).
  • post-processing is applied to the DoA unit vector estimated for each time-frequency bin (also called a time-frequency (TF) point).
  • This post-processing includes, for example, parameter estimation processing for identifying one sound source or noise source, and processing for specifying a time frequency point having more accurate DoA information.
  • the DoA estimation accuracy can be improved while reducing the amount of calculation.
  • FIG. 3 is a block diagram showing a configuration example of an arrival direction estimation device using the EC approach.
  • the DoA unit vector estimation unit 10 estimates the DoA unit vector based on the input SMA signal (in other words, the multi-channel digital acoustic signal or the input audio spectrum).
  • the DoA unit vector in the time frame ⁇ and the frequency bin k is expressed as “u ( ⁇ , k)” (or simply expressed as “u”).
  • the DoA unit vector u is mathematically expressed by the following equation (3).
  • indicates the azimuth
  • indicates the elevation angle (elevation).
  • the DoA unit vector is estimated for each time frequency point (eg, ⁇ and k) of the SMA signal and forms, for example, the matrix U (see, eg, FIG. 4).
  • the arrival direction estimation device 1 shown in FIG. 3 performs DoA estimation as follows, for example, based on the DoA unit vector u (or matrix U).
  • the weighting coefficient calculation unit 20 includes, for example, an average DoA unit vector estimation unit 21, a time weight calculation unit 22, a frequency weight calculation unit 23, and a multiplication unit 24.
  • the average DoA unit vector estimation unit 21 calculates the average value u ⁇ ( ⁇ ) of the DoA unit vector u in each time frame ⁇ , for example, as shown in FIG.
  • the average value u ⁇ ( ⁇ ) of the DoA unit vector is expressed by, for example, the following equation (4).
  • the time weight calculation unit 22 calculates a time weighting coefficient for specifying whether the time frame is composed of a single sound source or a plurality of sound sources (including noise). To do.
  • the time weight calculation unit 22 performs this estimation by, for example, calculating the coefficient of variation.
  • the coefficient of variation for example, the average value u ⁇ ( ⁇ ) of the DoA unit vector u in each time frame ⁇ estimated by the average DoA unit vector estimation unit 21 may be used.
  • the time frame ⁇ is composed of a single sound source or a plurality of sound sources based on the norm (
  • the time weight calculation unit 22 calculates, for example, the time weight coefficient ⁇ ( ⁇ ) shown in the following equation (5).
  • ⁇ ( ⁇ ) indicates whether the time frame ⁇ is composed of a single sound source or a plurality of sound sources or noise. For example, the closer ⁇ ( ⁇ ) is to 1, the more likely it is that a single sound source exists in the time frame ⁇ , and the closer ⁇ ( ⁇ ) is to 0, the more multiple sound sources or noises exist in the time frame ⁇ . Indicates that there is a high possibility.
  • the frequency weight calculation unit 23 calculates a frequency weighting coefficient for specifying a frequency point that contributes to the estimation of the original DoA (in other words, accurate DoA) in the DoA estimation. For example, the frequency weight calculation unit 23 calculates the frequency weighting coefficient ⁇ ( ⁇ , k) based on the angle deviation (in other words, the angle distance) based on the average DoA unit vector u ⁇ ( ⁇ ) of the time frame ⁇ . To do.
  • the frequency weighting coefficient ⁇ ( ⁇ , k) is calculated by, for example, the following equation (6).
  • ) is a radian notation of the angular deviation.
  • the frequency weighting coefficient ⁇ ( ⁇ , k) increases as the angular deviation decreases. In other words, in Eq. (6), the frequency weighting coefficient ⁇ ( ⁇ , k) becomes closer to 1 as the corresponding DoA unit vector u ( ⁇ , k) is closer to the average DoA unit vector u ⁇ ( ⁇ ). , The farther the corresponding DoA unit vector u ( ⁇ , k) is from the average DoA unit vector u ⁇ ( ⁇ ), the closer the value is to 0.
  • the multiplication unit 24 estimates the weighting coefficient w ( ⁇ , k) by the product of ⁇ ( ⁇ , k) and ⁇ ( ⁇ , k) as shown in the following equation (7).
  • a higher weighting coefficient w ( ⁇ , k) is given to the frequency component k having a DoA unit vector close to the average DoA unit vector.
  • a higher weighting coefficient w ( ⁇ ) is obtained for a time frame ⁇ in which ⁇ ( ⁇ ) is close to 1.
  • K is given.
  • a lower weighting coefficient w ( ⁇ , k) is given because there is a high possibility that a reverberant sound or noise exists.
  • the selection unit 30 is likely to be a single sound source from the DoA unit vector u ( ⁇ , k) based on the weighting coefficient w ( ⁇ , k), and is estimated to be more accurate. Select the DoA unit vector u ( ⁇ , k) for the frequency point.
  • the selection unit 30 has a weighting coefficient of the upper P% among the weighting factors w ( ⁇ , k) corresponding to each time frequency point (in other words, a combination of ⁇ and k).
  • the matrix having the selected DoA unit vector u ( ⁇ , k) as an element is the “matrix U ' ” shown in FIG.
  • the value of P may be selected empirically, for example.
  • the clustering unit 40 for example, based on information about the number of sound sources N, clustering the selected DoA unit vectors u ( ⁇ , k) from the composed matrix U ', the centroid of each cluster to each sound source Output as the corresponding DoA.
  • the direction corresponding to the average DoA unit vector u ⁇ ( ⁇ ) is assumed to be the direction of the sound source (DoA of the acoustic signal) in the time frame ⁇ .
  • the arrival direction estimation device 1 uses the angular deviation between the DoA unit vector u at all time frequency points in the observation target range and the average DoA unit vector u ⁇ of each time frame at each time frequency point.
  • the certainty of DoA corresponding to the DoA unit vector is calculated as a weighting coefficient.
  • the average DoA unit vector may also include a DoA unit vector affected by untargeted sound sources, ambient noise, reverberant sounds, etc. (in other words, Outlier). Therefore, the calculated average DoA unit vector may include untargeted sound source, ambient noise or reverberant components as biases. Therefore, in the arrival direction estimation device 1 shown in FIG. 3, the estimation accuracy of DoA may decrease due to a sound source or noise component that is not a target.
  • the signal component may be concentrated in the peak part of the harmonics, and the valley part of the spectrum may be buried in the background noise.
  • the characteristics of the original DoA unit vector of the average DoA unit vector can be diluted by a noise component or the like.
  • the arrival direction estimation device 1 may not be able to perform robust DoA estimation for an untargeted sound source, ambient noise, reverberant sound, or the like.
  • the average DoA unit vector is the average value (in other words, the average value of the DoA unit vectors corresponding to the directions of these close sound sources) even when there is no untargeted sound source or noise component. Then, the direction does not correspond to the direction of any sound source), so that the arrival direction estimation device 1 may reduce the estimation accuracy of DoA.
  • FIG. 7 shows a configuration example of a system (for example, an acoustic signal transmission system) according to the present embodiment.
  • the acoustic signal transmission system shown in FIG. 7 includes, for example, an arrival direction estimation device 100, a beam former 200, a coding device 300, and a decoding device 400.
  • an SMA signal is input to the arrival direction estimation device 100 and the beam former 200 from a spherical microphone array (SMA) (not shown).
  • SMA spherical microphone array
  • the arrival direction estimation device 100 estimates the arrival direction (DoA) of a signal (for example, an acoustic signal) from a sound source based on the SMA signal, and outputs DoA information regarding the estimated DoA to the beam former 200.
  • DoA arrival direction
  • An operation example of the arrival direction estimation device 100 will be described later.
  • the beamformer 200 performs beamforming processing for forming a beam to the DoA based on the DoA information input from the arrival direction estimation device 100 and the SMA signal.
  • the beamformer 200 extracts a target acoustic signal by beamforming processing to DoA, and outputs the extracted acoustic signal to the coding device 300.
  • Various methods can be used for the method of configuring the beamformer 200 and the beamforming process.
  • the coding device 300 encodes the acoustic signal input from the beam former 200 and sends the coding information to the decoding device 400 via, for example, a transmission line or a storage medium.
  • the encoding device 300 is a variety of audio-acoustic codecs (encoders) standardized by Moving Picture Experts Group (MPEG), 3rd Generation Partnership Project (3GPP), International Telecommunication Union Telecommunication Standardization Sector (ITU-T), and the like. May be used.
  • the decoding device 400 decodes the coding information (in other words, an acoustic signal) received from the coding device 300 via, for example, a transmission line or a storage medium, and converts it into an electric signal.
  • the decoding device 400 for example, outputs an electric signal as a sound wave via a speaker or headphones.
  • a decoder corresponding to the above-mentioned audio-acoustic codec may be used.
  • the acoustic signal transmission system is not limited to the configuration shown in FIG. 7.
  • the DoA information can be treated as an acoustic object by treating it as a set with an acoustic signal as metadata.
  • FIG. 8 shows a configuration example of the acoustic signal transmission system in this case.
  • the acoustic signal transmission system shown in FIG. 8 includes a metadata encoding device 500, a multiplexing unit 600, a demultiplexing unit 700, a metadata decoding device 800, and a renderer 900, in addition to the configuration of FIG. 7.
  • the metadata coding device 500 encodes the DoA information as metadata, and the multiplexing unit 600 multiplexes the metadata coding information and the acoustic signal coding information.
  • the demultiplexing unit 700 demultiplexes (multiplexes and separates) the received multiplexing information and separates it into acoustic signal coding information and metadata coding information.
  • the metadata decoding device 800 decodes the metadata encoding information, and the renderer 900 performs rendering processing on the decoded acoustic signal based on the metadata information and outputs a stereophonic signal.
  • the configuration is not limited to that shown in FIG. 8, and for example, the coding device 300 may be configured to encode a plurality of acoustic objects, and the metadata coding device 500 may have metadata for each of the plurality of acoustic objects. May be configured to encode.
  • FIG. 9 shows a configuration example of an acoustic signal transmission system when there are two acoustic objects.
  • the arrival direction estimation device 100 outputs, for example, information (for example, DoA information) regarding the arrival directions of the two acoustic objects to the beam formers 200-1 and 200-2, respectively.
  • the beamformers 200-1 and 200-2 extract the acoustic object signals of the respective arrival direction components based on, for example, the DoA information and the SMA signal, and encode the two types of acoustic object signals, respectively.
  • the coding devices 300-1 and 300-2 encode, for example, two acoustic object signals, respectively, and output the coding result (for example, also referred to as acoustic object signal coding information) to the multiplexing unit 600.
  • the information regarding the arrival direction (for example, DoA information) of the two acoustic object signals output from the arrival direction estimation device 100 is output to the metadata encoding devices 500-1 and 500-2, respectively.
  • the metadata encoding devices 500-1 and 500-2 encode, for example, DoA information as metadata, and output the metadata coding information to the multiplexing unit 600.
  • the multiplexing unit 600 for example, multiplexes and packets the metadata coding information and the acoustic object signal coding information and outputs them to the transmission line.
  • the multiplexed / packetized information is input to the demultiplexing unit 700 on the receiving side via the transmission line.
  • the demultiplexing unit 700 multiplexes, separates, and decomposes the multiplexed / packetized information into two acoustic object signal coding information and two metadata coding information.
  • the two acoustic object signal coding information is output to the decoding devices 400-1 and 400-2, respectively, and the two metadata coding information is output to the metadata decoding devices 800-1 and 800-2, respectively.
  • the decoding devices 400-1 and 400-2 decode the acoustic object signal coding information and output the decoded acoustic object signal to the renderer 900.
  • the renderer 900 performs rendering processing of the decoded acoustic object signal based on the decoded metadata information, and outputs a stereophonic signal (in other words, an output signal) of a desired number of channels.
  • FIG. 9 shows a configuration in which two types of acoustic objects are encoded as an example
  • the acoustic object signal to be encoded is not limited to two types, and three or more types of acoustic objects are encoded. It may be configured.
  • FIG. 9 as an example, an example in which acoustic object signals are encoded and decoded separately one by one is shown, but the present invention is not limited to this, and for example, a plurality of acoustic object signals are collectively used as a multi-channel signal. It may be configured to encode and decode.
  • FIG. 10 shows an example of a scalable encoding device having a monaural bitstream embedded configuration capable of outputting a bitstream in which a encoded bitstream of a monaural signal downmixed by a plurality of acoustic object signals is embedded in the configuration of FIG. Shown.
  • one acoustic object among the plurality of acoustic objects is a monaural acoustic signal obtained by adding (that is, downmixing) the other acoustic objects in the addition unit 1000. It may be encoded. Further, for example, in the subtraction unit 1100, another decoded acoustic object signal decoded by the decoding apparatus 400-1 is subtracted from the downmix monaural acoustic signal decoded by the decoding apparatus 400-2 shown in FIG. The decoded signal of the acoustic object signal before the downmix may be obtained.
  • the method of selecting the acoustic object signal transmitted as the downmix monaural acoustic signal among the plurality of acoustic object signals may be, for example, the method of selecting the acoustic object signal having the highest signal level among all the acoustic object signals. Good.
  • the relative ratio between the coding error of another acoustic object signal for example, the component of another acoustic object signal remaining in the decoded signal
  • the signal level of the acoustic object signal to be transmitted is suppressed to a small value (in other words, in other words). It is possible to maximize the ratio of the acoustic object signal components to be transmitted).
  • FIG. 11 is a block diagram showing a partial configuration of the arrival direction estimation device 100 according to the present embodiment.
  • the calculation unit (for example, corresponding to the weight coefficient calculation unit 101 in FIG. 12 described later) is a plurality of frequency components (for example, SMA) of the signal recorded in the microphone array (for example, SMA). , Frequency bins or frequency points), and the frequency weighting coefficients for the plurality of frequency components are calculated based on the differences between the unit vectors (for example, DoA unit vectors) indicating the direction of the sound source.
  • the estimation unit (for example, corresponding to the selection unit 30 and the clustering unit 40 in FIG. 12) estimates the arrival direction of the signal based on the frequency weighting coefficient.
  • FIG. 12 is a block diagram showing a configuration example of the arrival direction estimation device 100 according to the present embodiment.
  • the same reference numerals are given to the same configurations as those of the arrival direction estimation device 1 shown in FIG. 3, and the description thereof will be omitted.
  • the operation of the weighting coefficient calculation unit 101 is different from that of the arrival direction estimation device 1 shown in FIG.
  • FIG. 13 is a block diagram showing a configuration example of the weighting coefficient calculation unit 101.
  • the weighting coefficient calculation unit 101 shown in FIG. 13 includes, for example, an average DoA unit vector estimation unit 21, a time weight calculation unit 22, a representative DoA unit vector estimation unit 110, a frequency weight calculation unit 120, and a multiplication unit 24. To be equipped.
  • the representative DoA unit vector estimation unit 110 uses, for example, the representative DoA from the DoA unit vectors u ( ⁇ , k) corresponding to the plurality of frequency bins in each time frame ⁇ according to the following equation (8). Estimate (in other words, select) the unit vector u ⁇ ( ⁇ ).
  • the representative DoA unit vector estimation unit 110 is different from the DoA unit vector u ( ⁇ , k i ) of the frequency bin of interest (for example, k i ) in the time frame ⁇ .
  • frequency bins e.g., k j
  • the Euclidean distance in other words, L2- norm
  • k i be the representative DoA unit vector u ⁇ ( ⁇ ) in the time frame ⁇ .
  • the frequency weight calculation unit 120 calculates the frequency weighting coefficient ⁇ ⁇ ( ⁇ , k) according to, for example, the following equation (9).
  • the frequency weight calculation unit 120 uses the same equation as the equation (6) used in the frequency weight calculation unit 23 shown in FIG. 5, but uses the average DoA unit vector u ⁇ ( ⁇ ). Replace with the representative DoA unit vector u ⁇ ( ⁇ ). In other words, the frequency weight calculation unit 120 assumes that the direction corresponding to the representative DoA unit vectors u to ( ⁇ ) is the direction of the sound source in the time frame ⁇ (DoA of the acoustic signal).
  • Multiplying unit 24 ⁇ ( ⁇ ) and ⁇ - ( ⁇ , k) the weighting coefficients by the product of the w - 1 ( ⁇ , k) to estimate.
  • the arrival direction estimation unit 100 a difference between the DoA unit vectors in each of the plurality of frequency bins (e.g., Euclidean distance) weighting factors w based on the - weights 1 (tau, k) is calculated, the calculated coefficient w - 1 ( ⁇ , k) based on, perform DoA estimation.
  • a difference between the DoA unit vectors in each of the plurality of frequency bins e.g., Euclidean distance
  • the DoA unit vector u ( ⁇ , k) for each frequency bin k in each time frame ⁇ can fluctuate due to the influence of Outlier such as an untargeted sound source, ambient noise, or reverberant sound. ..
  • the DoA unit vectors of the frequency bin k corresponding to a single sound source can each point in the same direction.
  • the DoA unit vectors of the frequency bin k corresponding to noise or the like may indicate different directions (for example, a random direction or a scattering direction).
  • the representative DoA unit vector that minimizes the Euclidean distance (in other words, the difference or error) from other DoA unit vectors is not the DoA unit vector of the frequency bin k corresponding to noise or the like, but a single one. It is highly possible that it is one of the DoA unit vectors of the frequency bin k corresponding to the sound source of.
  • the representative DoA unit vector for example, a DoA unit vector existing near the center of the DoA unit vector group corresponding to the dominant sound source described above is selected.
  • the representative DoA unit vector is likely to be a vector closer to the original sound source direction among the DoA unit vectors corresponding to a plurality of frequency bins k. In other words, the representative DoA unit vector is unlikely to be an Outlier-influenced DoA unit vector.
  • the arrival direction estimation device 100 can estimate DoA based on a weighting coefficient based on a representative DoA unit vector in which these components are not included as a bias even in the presence of an untargeted sound source, ambient noise, reverberant sound, or the like. .. In other words, the arrival direction estimation device 100 sets a low weighting coefficient for the DoA unit vector corresponding to ambient noise, reverberation, etc., and does not use the DoA unit vector for DoA estimation (in other words, selection or clustering processing). .. Therefore, the arrival direction estimation device 100 can perform robust DoA estimation for untargeted sound sources, ambient noise, reverberant sounds, and the like, and can improve the DoA estimation accuracy.
  • the signal component may be concentrated in the peak part of the harmonics, and the valley part of the spectrum may be buried in the background noise.
  • the representative DoA unit vector is not easily affected by noise components and the like, so that the arrival direction estimation device 100 can perform robust DoA estimation for untargeted sound sources, ambient noise, reverberant sounds, and the like. Become.
  • the arrival direction estimation device 100 improves the DoA estimation accuracy by setting the DoA unit vector corresponding to any one direction of the adjacent sound sources as the representative DoA unit vector. it can.
  • the arrival direction estimation device 100 is near the center of a DoA unit vector group (for example, a group having a larger number of DoA unit vectors) corresponding to the dominant sound source among the plurality of sound sources even in a frame in which a plurality of sound sources exist.
  • the DoA unit vector existing in is set as the representative DoA unit vector.
  • the arrival direction estimation device 100 reduces the influence of the DoA unit vector of the sound source different from the sound source corresponding to the representative DoA unit vector among the plurality of sound sources, and performs DoA on the sound source corresponding to the representative DoA unit vector. Estimates can be made.
  • the representative DoA unit vector is the DoA unit vector of the frequency bin that minimizes the sum of the Euclidean distances from the DoA unit vectors of other frequency bins.
  • the method for determining the representative DoA unit vector is not limited to this.
  • the representative DoA unit vector may be selected from the DoA unit vectors whose sum of the Euclidean distances with the DoA unit vectors of other frequency bins is equal to or less than the threshold value.
  • the time weighting coefficient is based on the mean value (eg, average DoA unit vector) of the DoA unit vectors of multiple frequency bins (in other words, frequency components) in each time frame (in other words, time component) ⁇ . It is a value obtained by binarizing the value calculated in (for example, 0 or 1).
  • FIG. 14 is a block diagram showing a configuration example of the weighting coefficient calculation unit 101a according to the variation 1.
  • FIG. 14 differs from FIG. 13 in that it includes a time weight binarization unit 130.
  • the time weight binarization unit 130 outputs the time weight coefficient ⁇ ⁇ ( ⁇ ) to the multiplication unit 24.
  • the threshold value may be set in advance, for example.
  • the time weight binarization unit 130 sets the time weighting coefficient by 2 according to the K-means method, the Fuzzy c-means method, or the like based on the database including the time weighting coefficient ⁇ ( ⁇ ) obtained in a plurality of time frames. It may be clustered into one cluster. Then, the time weight binarization unit 130 may set the average value (or the midpoint) of the centroids of the two clusters as the threshold value.
  • the multiplication unit 24 estimates the weighting factor w ⁇ 2 ( ⁇ , k) by the product of ⁇ ⁇ ( ⁇ ) and ⁇ ⁇ ( ⁇ , k).
  • the weighting coefficient calculation unit 101a is, for example, a DoA unit of a time frame ⁇ corresponding to a time weighting coefficient ⁇ ( ⁇ ) equal to or higher than the threshold value, that is, a time frame ⁇ in which a single sound source is more likely to exist. Calculate the weighting factor w - 2 ( ⁇ , k) based on the vector. In other words, the weighting coefficient calculation unit 101a calculates by emphasizing the time weighting coefficient for the time frame ⁇ , which has a higher possibility that a single sound source exists (in other words, the possibility of corresponding to the correct DoA).
  • the arrival direction estimation device 100 can perform DoA estimation based on the DoA unit vector in the time frame ⁇ , which is unlikely to include an untargeted sound source, ambient noise, reverberant sound, or the like. DoA estimation accuracy can be improved.
  • the time weighting coefficient of the time frame ⁇ in which the sound source (in other words, the single sound source) is likely to exist is compared with the time weighting coefficient of the time frame ⁇ in which the single sound source is unlikely to exist. And emphasize.
  • the arrival direction estimation device 100 has, for example, a weighting coefficient w ⁇ 2 ( ⁇ ) based on the estimation result of DoA in the time frame ⁇ where there is a high possibility that a single sound source exists (in other words, it corresponds to the correct DoA). , K) can be estimated.
  • the arrival direction estimation device 100 represents the DoA unit vector corresponding to the direction of each sound source in each time frame ⁇ in which each of these close sound sources is active. It becomes easier to set the DoA unit vector, and the estimation accuracy of DoA can be improved.
  • FIG. 15 is a block diagram showing a configuration example of the weighting coefficient calculation unit 101b according to the variation 1.
  • FIG. 15 the same reference numerals are given to the configurations similar to those in FIG. 13, and the description thereof will be omitted.
  • the average DoA unit vector estimation unit 21 is not provided, and the time weight calculation unit 140 is provided instead of the time weight calculation unit 22.
  • the frequency weighting coefficient ⁇ in each time frame tau and each frequency bin k - ( ⁇ , k), for example, corresponding DoA unit vector u ( ⁇ , k) and the representative DoA unit vectors u ⁇ ( ⁇ , k ) Is determined according to the degree of separation. For example, DoA unit vectors u ( ⁇ , k) and the representative DoA unit vectors u ⁇ ( ⁇ , k) and is further away, frequency weighting factor ⁇ - ( ⁇ , k) becomes smaller.
  • the arrival direction estimation device 100 can perform DoA estimation based on the DoA unit vector in the time frame ⁇ , which is unlikely to include an untargeted sound source, ambient noise, reverberant sound, or the like. DoA estimation accuracy can be improved.
  • Th indicates a threshold value that defines a range of ⁇ that is allowed as a single sound source.
  • the time weight calculation unit 140 may calculate the time weight coefficient based on the binarized value (either 0 or 1) of the frequency weighting coefficient ⁇ ⁇ ( ⁇ , k).
  • Each functional block used in the description of the above embodiment is partially or wholly realized as an LSI which is an integrated circuit, and each process described in the above embodiment is partially or wholly. It may be controlled by one LSI or a combination of LSIs.
  • the LSI may be composed of individual chips, or may be composed of one chip so as to include a part or all of functional blocks.
  • the LSI may include data input and output.
  • LSIs may be referred to as ICs, system LSIs, super LSIs, and ultra LSIs depending on the degree of integration.
  • the method of making an integrated circuit is not limited to LSI, and may be realized by a dedicated circuit, a general-purpose processor, or a dedicated processor. Further, an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used.
  • the present disclosure may be realized as digital processing or analog processing. Furthermore, if an integrated circuit technology that replaces an LSI appears due to advances in semiconductor technology or another technology derived from it, it is naturally possible to integrate functional blocks using that technology. There is a possibility of applying biotechnology.
  • the communication device may include a wireless transmitter / receiver (transceiver) and a processing / control circuit.
  • the wireless transmitter / receiver may include a receiver and a transmitter, or both as functions.
  • the radio transmitter / receiver (transmitter, receiver) may include an RF (Radio Frequency) module and one or more antennas.
  • the RF module may include an amplifier, an RF modulator / demodulator, or the like.
  • Non-limiting examples of communication devices include telephones (mobile phones, smartphones, etc.), tablets, personal computers (PCs) (laptops, desktops, notebooks, etc.), cameras (digital stills / video cameras, etc.).
  • Digital players digital audio / video players, etc.
  • wearable devices wearable cameras, smart watches, tracking devices, etc.
  • game consoles digital book readers
  • telehealth telemedicines remote health Care / medicine prescription
  • vehicles with communication functions or mobile transportation automobiles, airplanes, ships, etc.
  • combinations of the above-mentioned various devices can be mentioned.
  • Communication devices are not limited to those that are portable or mobile, but are not portable or fixed, any type of device, device, system, such as a smart home device (home appliances, lighting equipment, smart meters or It also includes measuring instruments, control panels, etc.), vending machines, and any other "Things” that can exist on the IoT (Internet of Things) network.
  • a smart home device home appliances, lighting equipment, smart meters or It also includes measuring instruments, control panels, etc.
  • vending machines and any other "Things” that can exist on the IoT (Internet of Things) network.
  • Communication includes data communication using a combination of these, in addition to data communication using a cellular system, wireless LAN system, communication satellite system, etc.
  • the communication device also includes devices such as controllers and sensors that are connected or connected to communication devices that perform the communication functions described in the present disclosure.
  • devices such as controllers and sensors that are connected or connected to communication devices that perform the communication functions described in the present disclosure.
  • controllers and sensors that generate control and data signals used by communication devices that perform the communication functions of the communication device.
  • Communication devices also include infrastructure equipment that communicates with or controls these non-limiting devices, such as base stations, access points, and any other device, device, or system. ..
  • the arrival direction estimation device is based on the difference between the unit vectors indicating the direction of the sound source in each of the plurality of frequency components of the signal recorded in the microphone array, and the frequencies for the plurality of frequency components. It includes a calculation circuit for calculating each weighting coefficient and an estimation circuit for estimating the arrival direction of the signal from the sound source based on the frequency weighting coefficient.
  • the calculation circuit calculates the frequency weighting coefficient based on the unit vector having the smallest difference from the unit vector of another frequency component among the unit vectors of the plurality of frequency components. To do.
  • the difference is at least one of the Euclidean distance and the angular distance between the unit vectors.
  • the calculation circuit calculates a time weighting coefficient for a time component of the signal in addition to the frequency weighting coefficient, and the estimation circuit is a product of the frequency weighting coefficient and the time weighting coefficient. Based on, the arrival direction is estimated.
  • the time weighting coefficient is a binarized value calculated based on the average value of the unit vectors of the plurality of frequency components in each time component.
  • the calculation circuit calculates the time weighting coefficient based on the frequency weighting coefficient.
  • the calculation circuit calculates the time weighting coefficient based on a binarized value of the frequency weighting coefficient.
  • the system includes an arrival direction estimation device that estimates the arrival direction of a signal from a sound source, a beam former that extracts an acoustic signal by beam forming in the arrival direction, and encodes the acoustic signal.
  • the arrival direction estimation device includes a coding device for decoding and a decoding device for decoding the encoded acoustic signal, and the arrival direction estimation device is a direction of a sound source in each of a plurality of frequency components of the signal recorded in the microphone array.
  • the frequency weighting coefficients for the plurality of frequency components are calculated based on the difference between the unit vectors indicating the above, and the arrival direction is estimated based on the frequency weighting coefficients.
  • the method of estimating the direction of arrival is based on a difference between unit vectors indicating the direction of a sound source in each of a plurality of frequency components of a signal recorded in a microphone array.
  • the frequency weighting coefficients for each of the plurality of frequency components are calculated, and the direction of arrival of the signal from the sound source is estimated based on the frequency weighting coefficients.
  • One embodiment of the present disclosure is useful for an acoustic signal transmission system or the like.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

到来方向推定装置において、算出回路は、マイクロホンアレイにおいて収録された信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、複数の周波数成分に対する周波数重み係数をそれぞれ算出し、推定回路は、周波数重み係数に基づいて、音源からの信号の到来方向を推定する。

Description

到来方向推定装置、システム、及び、到来方向推定方法
 本開示は、到来方向推定装置、システム、及び、到来方向推定方法に関する。
 音場は、例えば、音響キャプチャリングデバイスを用いて記録される。音響キャプチャリングデバイスは、例えば、正四面体状又は球状に音場に配置される複数の指向性マイク又は無指向性マイクから構成される。音響キャプチャリングデバイスによって収録された音響情報は、例えば、音場に存在する各音源の方向(換言すると、音波(又は、音響信号とも呼ぶ)の到来方向)の推定に用いられる。
S. Hafezi, A. H. Moore and P. A. Naylor, "Multiple source localization using estimation consistency in the time-frequency domain", ICASSP, pp. 516-520, Mar. 2017.
 しかしながら、音響信号の到来方向を推定する方法についての検討は十分ではない。
 本開示の非限定的な実施例は、音響信号の到来方向の推定精度を向上できる到来方向推定装置、システム、及び、到来方向推定方法の提供に資する。
 本開示の一実施例に係る到来方向推定装置は、マイクロホンアレイにおいて収録された信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出する算出回路と、前記周波数重み係数に基づいて、前記音源からの前記信号の到来方向を推定する推定回路と、を具備する。
 なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一実施例によれば、音響オブジェクト音の抽出性能を向上することができる。
 本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
アンビソニックスマイクロホンによって複数の音場を収録する様子の一例を示す図 SMA信号を用いてPIVを推定する方法の一例を示す図 到来方向推定装置の構成例を示すブロック図 DoA単位ベクトルの一例を示す図 重み係数算出部の構成例を示すブロック図 DoA単位ベクトルの選択例を示す図 一実施の形態に係る音響信号伝送システムの構成例を示すブロック図 一実施の形態に係る音響信号伝送システムの構成例を示すブロック図 一実施の形態に係る音響信号伝送システムの他の構成例を示すブロック図 一実施の形態に係る音響信号伝送システムの他の構成例を示すブロック図 一実施の形態に係る到来方向推定装置の一部の構成例を示すブロック図 一実施の形態に係る到来方向推定装置の構成例を示すブロック図 一実施の形態に係る重み係数算出部の構成例を示すブロック図 バリエーション1に係る重み係数算出部の構成例を示すブロック図 バリエーション2に係る重み係数算出部の構成例を示すブロック図
 以下、本開示の実施の形態について図面を参照して詳細に説明する。
 例えば、音場に対応するアンビソニックス信号は、B-フォーマットのマイクから直接的に、又は、A-フォーマットのマイクから間接的に得られる。また、この音場は、例えば、1次のアンビソニックス(First Order Ambisonics,FOA)で表現され得る。または、音場は、球状マイクロホンアレイ(Spherical Microphone Array,SMA)を用いて得られる信号から高次アンビソニックス(Higher Order Ambisonics,HOA)で表現され得る。
 HOAで表現されるアンビソニックス信号(以下、HOA信号とも呼ぶ)を用いるアプリケーションの一つとして、音場に存在する複数の音源から届く音波(例えば、音響信号、音声信号又は音声音響信号とも呼ぶ)の到来方向(Direction of Arrival,DoA)推定(換言すると、音場方向の推定)がある。
 音響信号のDoA推定は、例えば、ロボット又は監視システムにおいて、音源の探知又は追尾に適用できる。また、音響信号のDoA推定は、例えば、音響ビームフォーマ又は音響コーデックの前処理に適用できる。また、音源のDoA推定は、協調ブラインド音源分離(例えば、Collaborative Blind Source Separation,CBSS)を用いた音場ナビゲーションシステムのような6DoF(Degrees of Freedom)アプリケーションの前処理にも適用できる。
 以下、一例として、SMAを用いてDoA推定を行う方法について説明する。
 まず、SMAにおいて収録された信号(例えば、マイク入力信号と呼ぶ)は、例えば、フーリエ変換(例えば、Fast Fourier Transform,FFT)を用いて、時間領域から周波数領域に変換される。そして、変換後のマイク入力信号は、さらに、球面調和関数変換(Spherical Harmonic Transform,SHT)を用いて球面調和係数(Spherical Harmonic Coefficients,SHC)又はHOA信号に変換される。
 一般に、室内反響、背景雑音又はマイクの加法性雑音があるため、DoA推定の困難度は、音源の数が多いほど高くなる。また、例えば、複数の音源が同時にアクティブになり、信号が重なり合ったり、複数の音源が互いに接近した位置にあったりすると、DoA推定の困難度は更に高くなる。
 図1は、アンビソニックスマイクロホンMによって、音源S1~Snを含む音場からの信号を収録する様子の一例を示す模式図である。図1において、アンビソニックスマイクロホンMは、例えば、Q個のマイクが表面に配置されている。図1は、各音源S1~SnからアンビソニックスマイクロホンMへの直接波、及び、反射波の経路の一例を示す。
 SMAを用いたDoA推定では、例えば、疑似強度ベクトル(pseudo-intensity vector,PIV)が算出(換言すると、推定)される。
 図2は、SMA信号を用いてPIVを推定する方法の一例を示す。
 図2に示すように、SMAは、時間nにおける位置rqに対する音圧p(n,rq)を記録する(時間nをt,τで表し,p(t,τ,rq)と表しても良い.ここでtはフレームτ内の時間)。音圧p(n,rq)は、短時間フーリエ変換(Short-Time Fourier Transform,STFT)によって周波数領域信号P(k,τ,rq)に変換される。ここで、kは周波数ビン番号を示し、τは時間フレーム番号を示す。また、図2では、周波数領域信号P(k,τ,rq)に対してSHTが行われ、アンビソニックス信号Plm(k)(換言すると、固有ビームとも呼ばれる)が得られる。
 例えば、アンビソニックス信号Plmの最初の4チャネルに基づいて、PIV(例えば、I(k)と表す)が計算される。例えば、B-フォーマットで収録された信号の場合、Plmの4チャネルはW, X, Y, Zチャネルに相当する。例えば、Wチャネルは、無指向性の信号成分に相当する。また、X, Y, Zチャネルは、それぞれ、例えば、上下方向、左右方向及び前後方向の信号成分に相当する。
 また、SMAによって収録された信号の場合、PIV I(k)は、例えば、アンビソニックス信号Plm(k)に基づいて、次式(1)を用いて算出される。
Figure JPOXMLDOC01-appb-M000001
 ここで、kは周波数ビン番号を示す。また、P00 *(k)は、ゼロ次の固有ビームP00(k)(例えば、Wチャネル)の複素共益を示す。また、Px(k)、Py(k)、Pz(k)は、1次の固有ビームP1(-1)(k)、P10(k)、P11(k)をx,y,z軸にそれぞれ揃える(投影する)ための球面調和係数を用いた線形結合で得られる。
 音源の方向を指す単位ベクトル(又はDoA単位ベクトルとも呼ぶ)uは、例えば、次式(2)で与えられる。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、関数||I(k)||は、I(k)に対するL2ノルム演算を表す。
 以上、SMAを用いてDoA推定を行う方法について説明した。
 DoA推定の精度を向上する方法に、例えば、低演算量推定調和(estimation consistency, EC)アプローチが提案されている(例えば、非特許文献1を参照)。ECアプローチでは、時間周波数ビン(例えば、時間周波数(TF)ポイントとも呼ぶ)毎に推定されるDoA単位ベクトルに対して後処理が適用される。この後処理は、例えば、一つの音源又は雑音源を特定するためのパラメータの推定処理、及び、より正確なDoA情報を有する時間周波数ポイントを特定する処理を含む。ECアプローチによれば、演算量を低減しつつ、DoA推定精度を向上できる。
 図3は、ECアプローチを用いた到来方向推定装置の構成例を示すブロック図である。
 図3に示す到来方向推定装置1において、DoA単位ベクトル推定部10は、入力されるSMA信号(換言すると、マルチチャネルデジタル音響信号又は入力オーディオスペクトル)に基づいて、DoA単位ベクトルを推定する。SMA信号は、例えば、q個のマイクロホンで収録された音響信号m=[m1(t), m2(t), …, mq(t)]から構成されてよい。以下では、時間フレームτ及び周波数ビンkにおけるDoA単位ベクトルを「u(τ, k)」と表す(又は、単に「u」と表す)。DoA単位ベクトルuは、数学的には次式(3)で表される。
Figure JPOXMLDOC01-appb-M000003
 ここで、θは方位角(azimuth)を示し、φは仰角(elevation)を示す。
 DoA単位ベクトルは、SMA信号の各時間周波数ポイント(例えば、τ及びk)に対して推定され、例えば、行列U(例えば、図4を参照)を形成する。図3に示す到来方向推定装置1は、例えば、DoA単位ベクトルu(又は行列U)に基づいて、以下のようにDoA推定を行う。
 重み係数算出部20は、例えば、図5に示すように、平均DoA単位ベクトル推定部21と、時間重み算出部22と、周波数重み算出部23と、乗算部24と、を有する。
 図5において、平均DoA単位ベクトル推定部21は、例えば、図4に示すように、各時間フレームτにおけるDoA単位ベクトルuの平均値u^(τ)を算出する。DoA単位ベクトルの平均値u^(τ)は、例えば、次式(4)で表される。
Figure JPOXMLDOC01-appb-M000004
 時間重み算出部22は、例えば、各時間フレームτにおいて、当該時間フレームが単音源から構成されるか、複数の音源(雑音を含む)から構成されるかを特定するための時間重み係数を算出する。時間重み算出部22は、この推定を、例えば、変動係数の計算により行う。変動係数には、例えば、平均DoA単位ベクトル推定部21において推定される各時間フレームτにおけるDoA単位ベクトルuの平均値u^(τ)が用いられてよい。例えば、時間重み算出部22は、平均DoA単位ベクトルu^(τ)のノルム(||u^(τ)||)に基づいて、時間フレームτが単音源から構成されるか、複数の音源から構成されるかを推定する。
 時間重み算出部22は、例えば、次式(5)に示す時間重み係数ψ(τ)を算出する。
Figure JPOXMLDOC01-appb-M000005
 ψ(τ)は、時間フレームτが単音源から構成されるか、複数の音源又は雑音から構成されるかを表す。例えば、ψ(τ)が1に近いほど、時間フレームτでは単音源が存在する可能性が高いことを表し、ψ(τ)が0に近いほど、時間フレームτでは複数音源又は雑音が存在する可能性が高いことを表す。
 周波数重み算出部23は、DoA推定において本来のDoA(換言すると、正確なDoA)の推定に寄与する周波数ポイントを特定するための周波数重み係数を算出する。例えば、周波数重み算出部23は、時間フレームτの平均DoA単位ベクトルu^(τ)に基づいて、角度偏差(換言すると、角度距離)に基づいて、周波数重み係数λ(τ, k)を算出する。周波数重み係数λ(τ, k)は、例えば、次式(6)によって算出される。
Figure JPOXMLDOC01-appb-M000006
 ここで、cos-1(u(τ, k)Tu^(τ)/||u(τ, k)||||u^(τ)||)は、角度偏差のラジアン表記である。周波数重み係数λ(τ, k)は、角度偏差が小さいほど、高くなる。換言すると、式(6)では、周波数重み係数λ(τ, k)は、対応するDoA単位ベクトルu(τ, k)が平均DoA単位ベクトルu^(τ)に近いほど、1に近い値となり、対応するDoA単位ベクトルu(τ, k)が平均DoA単位ベクトルu^(τ)から遠いほど、0に近い値となる。
 乗算部24は、例えば、次式(7)に示すように、ψ(τ, k)とλ(τ, k)との積によって重み係数w(τ, k)を推定する。
Figure JPOXMLDOC01-appb-M000007
 ここで、*は乗算を表す。
 例えば、単音源の時間フレームτにおいて、平均DoA単位ベクトルに近いDoA単位ベクトルを有する周波数成分kに対して、より高い重み係数w(τ, k)が与えられる。また、例えば、各時間フレームにおいて1つの音源が存在する場合(又はアクティブである場合)を想定する場合に、ψ(τ)が1に近い時間フレームτに対して、より高い重み係数w(τ, k)が与えられる。一方、ψ(τ)が0に近い時間フレームτに対しては、反響音又は雑音が存在する可能性が高いため、より低い重み係数w(τ, k)が与えられる。
 図3において、選択部30は、重み係数w(τ, k)に基づいて、DoA単位ベクトルu(τ, k)の中から、単音源である可能性が高く、より正確と推測される時間周波数ポイントのDoA単位ベクトルu(τ, k)を選択する。
 例えば、図6に示すように、選択部30は、各時間周波数ポイント(換言すると、τ及びkの組み合わせ)にそれぞれ対応する重み係数w(τ, k)の中で、上位P%の重み係数に対応するDoA単位ベクトルu(τ, k)を選択する。選択されたDoA単位ベクトルu(τ, k)を要素とする行列は、図6に示す「行列U'」である。なお、Pの値は、例えば、経験的に選定されてもよい。
 図3において、クラスタリング部40は、例えば、音源数Nに関する情報に基づいて、選択されたDoA単位ベクトルu(τ, k)から成る行列U'をクラスタリングし、各クラスタのセントロイドを各音源に対応するDoAとして出力する。
 以上、ECアプローチを用いた到来方向推定装置の一例について説明した。
 このように、図3に示す到来方向推定装置1では、平均DoA単位ベクトルu^(τ)に対応する方向を時間フレームτにおける音源の方向(音響信号のDoA)と仮定している。例えば、到来方向推定装置1は、観測対象の範囲にある全ての時間周波数ポイントにおけるDoA単位ベクトルuと、各時間フレームの平均DoA単位ベクトルu^との角度偏差を用いて、各時間周波数ポイントにおけるDoA単位ベクトルに対応するDoAの確からしさを重み係数として計算する。
 しかしながら、平均DoA単位ベクトルには、目標としない音源、周囲雑音又は反響音等(換言すると、Outlier)の影響を受けたDoA単位ベクトルも含まれ得る。このため、計算された平均DoA単位ベクトルには、目標としない音源、周囲雑音又は反響音の成分がバイアスとして含まれ得る。よって、図3に示す到来方向推定装置1では、目標としない音源又は雑音成分によってDoAの推定精度が低下する可能性がある。
 また、例えば、音声の母音のような調波構造を有する音の場合、信号成分がハーモニクスのピーク部分に集中し、スペクトルの谷間の部分が背景雑音に埋もれる場合がある。このような場合、平均DoA単位ベクトルは、本来のDoA単位ベクトルの特徴が雑音成分等によって希薄化され得る。このように、到来方向推定装置1は、目標としない音源、周囲雑音又は反響音等に対してロバストなDoA推定を行えない可能性がある。
 また、例えば、互いに近接した音源が存在する場合、目標としない音源又は雑音成分が存在しない場合でも、平均DoA単位ベクトルは、これらの近接した音源の方向に対応するDoA単位ベクトルの平均値(換言すると、何れの音源の方向にも相当しない方向)となるので、到来方向推定装置1では、DoAの推定精度が低下する可能性がある。
 そこで、本開示の一実施例では、音源に対応するDoAの推定精度を向上する方法について説明する。
 [システムの概要]
 図7は、本実施の形態に係るシステム(例えば、音響信号伝送システム)の構成例を示す。
 図7に示す音響信号伝送システムは、例えば、到来方向推定装置100と、ビームフォーマ200と、符号化装置300と、復号装置400と、を備える。
 図7に示す音響信号伝送システムにおいて、図示しない球状マイクロホンアレイ(SMA)からSMA信号が到来方向推定装置100及びビームフォーマ200に入力される。
 到来方向推定装置100は、SMA信号に基づいて、音源からの信号(例えば、音響信号)の到来方向(DoA)を推定し、推定したDoAに関するDoA情報をビームフォーマ200に出力する。なお、到来方向推定装置100における動作例については後述する。
 ビームフォーマ200は、到来方向推定装置100から入力されるDoA情報、及び、SMA信号に基づいて、DoAへのビームを形成するビームフォーミング処理を行う。ビームフォーマ200は、DoAへのビームフォーミング処理によって、目標とする音響信号を抽出し、抽出した音響信号を符号化装置300へ出力する。ビームフォーマ200の構成方法及びビームフォーミング処理は、種々の方法を利用できる。
 符号化装置300は、ビームフォーマ200から入力される音響信号を符号化し、符号化情報を、例えば、伝送路又は記憶媒体等を介して、復号装置400に送出する。例えば、符号化装置300は、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)等で規格化されている種々の音声音響コーデック(エンコーダ)を用いてもよい。
 復号装置400は、例えば、伝送路又は記憶媒体等を介して、符号化装置300から受け取った符号化情報(換言すると、音響信号)を復号して電気信号に変換する。復号装置400は、例えば、電気信号を、スピーカ又はヘッドホンを介して音波として出力する。なお、復号装置400は、例えば、前述した音声音響コーデックに対応するデコーダを用いてもよい。
 なお、音響信号伝送システムは、図7に示す構成に限定されない。例えば、音源が複数存在する場合、DoA情報は、メタデータとして音響信号とセットで扱うことにより、音響オブジェクトとして扱うことも可能である。
 図8は、この場合の音響信号伝送システムの構成例を示す。図8に示す音響信号伝送システムは、図7の構成に加え、メタデータ符号化装置500、多重化部600、逆多重化部700、メタデータ復号装置800及びレンダラ(renderer)900を備える。
 図8において、符号化側では、メタデータ符号化装置500は、DoA情報をメタデータとして符号化し、多重化部600は、メタデータ符号化情報と、音響信号符号化情報とを多重化する。また、図8において、復号側では、逆多重化部700は、受信した多重化情報を逆多重化(多重化分離)して、音響信号符号化情報とメタデータ符号化情報とに分離する。メタデータ復号装置800は、メタデータ符号化情報を復号し、レンダラ900は、メタデータの情報に基づいて、復号された音響信号に対するレンダリング処理を行い、立体音響信号を出力する。
 なお、図8に示す構成に限定されず、例えば、符号化装置300は、複数の音響オブジェクトを符号化する構成でもよく、メタデータ符号化装置500は、それら複数の音響オブジェクトに対するそれぞれのメタデータを符号化する構成でもよい。図9は、一例として、音響オブジェクトが2つの場合の音響信号伝送システムの構成例を示す。
 図9に示す送信側において、到来方向推定装置100は、例えば、2つの音響オブジェクトの到来方向に関する情報(例えば、DoA情報)をそれぞれビームフォーマ200-1及び200-2に出力する。ビームフォーマ200-1及び200-2は、例えば、DoA情報、及び、SMA信号に基づいて、それぞれの到来方向成分の音響オブジェクト信号を抽出し、2種類の音響オブジェクト信号としてそれぞれ符号化装置300-1及び300-2へ出力する。符号化装置300-1及び300-2は、例えば、2つの音響オブジェクト信号をそれぞれ符号化し、符号化結果(例えば、音響オブジェクト信号符号化情報とも呼ぶ)を多重化部600に出力する。また、到来方向推定装置100から出力される2つの音響オブジェクト信号の到来方向に関する情報(例えば、DoA情報)は、それぞれメタデータ符号化装置500-1及び500-2へ出力される。メタデータ符号化装置500-1及び500-2は、例えば、DoA情報をメタデータとして符号化し、メタデータ符号化情報を多重化部600に出力する。多重化部600は、例えば、メタデータ符号化情報と音響オブジェクト信号符号化情報とを多重化・パケット化し、伝送路へ出力する。多重化・パケット化された情報は伝送路を介して受信側の逆多重化部700に入力される。
 図9に示す受信側において、逆多重化部700は、多重化・パケット化された情報を多重化分離・パケット分解し、2つの音響オブジェクト信号符号化情報と、2つのメタデータ符号化情報とに分離・分解し、2つの音響オブジェクト信号符号化情報をそれぞれ復号装置400-1及び400-2へ出力し、2つのメタデータ符号化情報をそれぞれメタデータ復号装置800-1及び800-2へ出力する。メタデータ復号装置800-1及び800-2は、例えば、メタデータ符号化情報を復号して、復号メタデータ情報をレンダラ900に出力する。復号装置400-1及び400-2は、例えば、音響オブジェクト信号符号化情報を復号して、復号音響オブジェクト信号をレンダラ900に出力する。レンダラ900は、例えば、復号メタデータ情報に基づいて、復号音響オブジェクト信号のレンダリング処理を行い、所望のチャネル数の立体音響信号(換言すると、出力信号)を出力する。
 なお、図9では、一例として、2種類の音響オブジェクトを符号化する構成を示したが、符号化対象の音響オブジェクト信号は、2種類に限定されず、3種類以上の音響オブジェクトを符号化する構成でもよい。また、図9では、一例として、音響オブジェクト信号が1つずつ別々に符号化及び復号される例を示したが、これに限定されず、例えば、複数の音響オブジェクト信号をまとめてマルチチャネル信号として符号化及び復号する構成でもよい。
 また、図10は、図9の構成において、複数の音響オブジェクト信号をダウンミックスしたモノラル信号の符号化ビットストリームを埋め込んだビットストリームを出力可能なモノラルビットストリームエンベデッド構成のスケーラブル符号化装置の一例を示す。
 例えば、図10に示す符号化装置300-2において、複数の音響オブジェクトのうち、1つの音響オブジェクトは、加算部1000において他の音響オブジェクトを足し合わせた(すなわち、ダウンミックスした)モノラル音響信号として符号化されてよい。また、例えば、減算部1100において、図10に示す復号装置400-2において復号されたダウンミックスモノラル音響信号から、復号装置400-1において復号された他の復号音響オブジェクト信号を減算することにより、ダウンミックス前の音響オブジェクト信号の復号信号を得てよい。
 このような構成により、例えば、ダウンミックスモノラル音響信号を符号化した符号化装置300-2に対応する復号装置400-2を搭載した受信器であれば、ダウンミックスモノラル音響信号の符号化データ部分のみを取り出して復号することにより、トランスコーディング(換言すると、タンデムコーディング)無しにダウンミックスモノラル音響信号の復号が可能となる。
 なお、複数の音響オブジェクト信号のうち、ダウンミックスモノラル音響信号として送信される音響オブジェクト信号の選択方法は、例えば、全ての音響オブジェクト信号の中で最も信号レベルが高い音響オブジェクト信号を選択する方法でもよい。この選択方法により、他の音響オブジェクト信号の符号化誤差(例えば、復号信号に残留する他の音響オブジェクト信号の成分)と送信したい音響オブジェクト信号の信号レベルとの相対比を小さく抑える(換言すると、送信したい音響オブジェクト信号成分の比を最大化する)ことが可能である。
 [到来方向推定装置の構成例]
 次に、図7又は図8に示す到来方向推定装置100の構成例について説明する。
 図11は、本実施の形態に係る到来方向推定装置100の一部の構成を示すブロック図である。図11に示す到来方向推定装置100において、算出部(例えば、後述する図12の重み係数算出部101に相当)は、マイクロホンアレイ(例えば、SMA)において収録された信号の複数の周波数成分(例えば、周波数ビン又は周波数ポイント)のそれぞれにおける音源の方向を示す単位ベクトル(例えば、DoA単位ベクトル)間の差分に基づいて、複数の周波数成分に対する周波数重み係数をそれぞれ算出する。推定部(例えば、図12の選択部30及びクラスタリング部40に相当)は、周波数重み係数に基づいて、信号の到来方向を推定する。
 図12は、本実施の形態に係る到来方向推定装置100の構成例を示すブロック図である。
 なお、図12において、図3に示す到来方向推定装置1と同様の構成には同一の符号を付し、その説明を省略する。例えば、図12に示す到来方向推定装置100では、重み係数算出部101の動作が、図3に示す到来方向推定装置1と異なる。
 図13は、重み係数算出部101の構成例を示すブロック図である。図13に示す重み係数算出部101は、例えば、平均DoA単位ベクトル推定部21と、時間重み算出部22と、代表DoA単位ベクトル推定部110と、周波数重み算出部120と、乗算部24と、を備える。
 なお、図13において、平均DoA単位ベクトル推定部21、時間重み算出部22、及び、乗算部24の動作は、図5と同様の動作であるので、その説明を省略する。
 図13において、代表DoA単位ベクトル推定部110は、例えば、次式(8)に従って、各時間フレームτにおける複数の周波数ビンにそれぞれ対応するDoA単位ベクトルu(τ, k)の中から、代表DoA単位ベクトルu~(τ)を推定(換言すると、選択)する。
Figure JPOXMLDOC01-appb-M000008
 式(8)では、代表DoA単位ベクトル推定部110は、時間フレームτにおいて、着目する周波数ビン(例えば、ki)のDoA単位ベクトルu(τ, ki)と、着目する周波数ビンと異なる他の周波数ビン(例えば、kj)のDoA単位ベクトルu(τ, kj)とのユークリッド距離(換言すると、L2-ノルム)の総和が最小となる周波数ビンkiのDoA単位ベクトルu(τ, ki)を、時間フレームτにおける代表DoA単位ベクトルu~(τ)とする。
 図13において、周波数重み算出部120は、例えば、次式(9)に従って、周波数重み係数λ-(τ, k)を算出する。
Figure JPOXMLDOC01-appb-M000009
 周波数重み算出部120は、式(9)に示すように、図5に示す周波数重み算出部23で用いる式(6)と同様の式を用いるが、平均DoA単位ベクトルu^(τ)を、代表DoA単位ベクトルu~(τ)に置き換える。換言すると、周波数重み算出部120では、代表DoA単位ベクトルu~(τ)に対応する方向を時間フレームτにおける音源の方向(音響信号のDoA)と仮定する。
 乗算部24は、ψ(τ)とλ-(τ, k)との積によって重み係数w- 1(τ, k)を推定する。
 このように、到来方向推定装置100は、複数の周波数ビンのそれぞれにおけるDoA単位ベクトル間の差分(例えば、ユークリッド距離)に基づいて重み係数w- 1(τ, k)を算出し、算出した重み係数w- 1(τ, k)に基づいて、DoA推定を行う。
 ここで、上述したように、例えば、目標としない音源、周囲雑音又は反響音等のOutlierの影響によって、各時間フレームτにおける周波数ビンk毎のDoA単位ベクトルu(τ, k)は変動し得る。
 仮に、各時間フレームτにおいて単一の音源が存在する場合(換言すると、アクティブである場合)に、当該単一の音源にそれぞれ対応する多数の周波数ビンkと、雑音等に対応する少数の周波数ビンkとが含まれることを想定する。この想定において、単一の音源に対応する周波数ビンkのDoA単位ベクトル(換言すると、支配的な音源に対応するDoA単位ベクトル群)は、それぞれ同様の方向を示し得る。一方、雑音等に対応する周波数ビンkのDoA単位ベクトルは、それぞれ異なる方向(例えば、ランダムな方向又は散乱する方向)を示し得る。
 よって、この想定において、他のDoA単位ベクトルとのユークリッド距離(換言すると、差分又は誤差)が最小となる代表DoA単位ベクトルは、雑音等に対応する周波数ビンkのDoA単位ベクトルではなく、単一の音源に対応する周波数ビンkのDoA単位ベクトルの何れかである可能性が高い。換言すると、代表DoA単位ベクトルには、例えば、上述した支配的な音源に対応するDoA単位ベクトル群の中心付近に存在するDoA単位ベクトルが選択される。
 このため、代表DoA単位ベクトルは、複数の周波数ビンkに対応するDoA単位ベクトルのうち、本来の音源の方向により近いベクトルである可能性が高い。換言すると、代表DoA単位ベクトルは、Outlierの影響を受けたDoA単位ベクトルである可能性が低い。
 したがって、到来方向推定装置100は、目標としない音源、周囲雑音又は反響音等が存在する場合でも、これらの成分がバイアスとして含まれない代表DoA単位ベクトルに基づく重み係数に基づいてDoAを推定できる。換言すると、到来方向推定装置100は、周囲雑音又は反響音等に対応するDoA単位ベクトルに対する重み係数を低く設定し、当該DoA単位ベクトルを、DoA推定(換言すると、選択又はクラスタリング処理)に用いない。よって、到来方向推定装置100は、目標としない音源、周囲雑音又は反響音等に対してロバストなDoA推定が可能となり、DoAの推定精度を向上できる。
 また、例えば、音声の母音のような調波構造を有する音の場合、上述したように、信号成分がハーモニクスのピーク部分に集中し、スペクトルの谷間の部分が背景雑音に埋もれる場合がある。このような場合でも、代表DoA単位ベクトルは、雑音成分等の影響を受けにくいので、到来方向推定装置100は、目標としない音源、周囲雑音又は反響音等に対してロバストなDoA推定が可能となる。
 また、例えば、互いに近接した音源が存在する場合、例えば、上述した平均DoA単位ベクトルに基づくDoA推定(例えば、図3を参照)では、これらの音源の方向の間(例えば、中間)の方向を誤って推定する可能性がある。これに対して、本実施の形態では、到来方向推定装置100は、近接した音源のいずれか一つの方向に対応するDoA単位ベクトルを代表DoA単位ベクトルに設定することで、DoAの推定精度を向上できる。
 換言すると、到来方向推定装置100は、複数の音源が存在するフレームでも、複数の音源のうち支配的な音源に対応するDoA単位ベクトル群(例えば、DoA単位ベクトル数がより多い群)の中心付近に存在するDoA単位ベクトルを代表DoA単位ベクトルに設定すればよい。これにより、到来方向推定装置100は、複数の音源のうち、代表DoA単位ベクトルに対応する音源と異なる音源のDoA単位ベクトルの影響を低減して、代表DoA単位ベクトルに対応する音源に対してDoA推定を行うことができる。
 また、本実施の形態によれば、例えば、音源間の間隔に関する事前情報を必要としない。
 なお、式(8)では、代表DoA単位ベクトルが、他の周波数ビンのDoA単位ベクトルとのユークリッド距離の総和が最小となる周波数ビンのDoA単位ベクトルである場合について説明した。しかし、代表DoA単位ベクトルの決定方法は、これに限定されない。例えば、代表DoA単位ベクトルは、他の周波数ビンのDoA単位ベクトルとのユークリッド距離の総和が閾値以下のDoA単位ベクトルの中から選択されてもよい。
 (バリエーション1)
 バリエーション1では、時間重み係数は、各時間フレーム(換言すると、時間成分)τにおける、複数の周波数ビン(換言すると、周波数成分)のDoA単位ベクトルの平均値(例えば、平均DoA単位ベクトル)に基づいて算出される値を二値化した値(例えば、0又は1)である。
 図14は、バリエーション1に係る重み係数算出部101aの構成例を示すブロック図である。
 なお、図14において、図13と同様の構成には同一の符号を付し、その説明を省略する。例えば、図14では、時間重み二値化部130を備える点が図13と異なる。
 時間重み二値化部130は、時間重み算出部22から入力される時間重み係数ψ(τ)を、例えば、大きい値のクラスタ(換言すると、分類又はグループ)、及び、小さい値のクラスタの何れに属するかを判定(換言するとクラスタリング)する。例えば、時間重み二値化部130は、大きい値のクラスタに属する時間重み係数ψ-(τ)=1に設定し、小さい値のクラスタに属する時間重み係数ψ-(τ)=0に設定する。時間重み二値化部130は、時間重み係数ψ-(τ)を乗算部24へ出力する。
 例えば、時間重み二値化部130は、時間重み係数ψ(τ)を、閾値以上のクラスタ(時間重み係数ψ-(τ)=1)と、閾値未満のクラスタ(時間重み係数ψ-(τ)=0)とに分類してもよい。
 なお、閾値は、例えば、事前に設定されてもよい。例えば、時間重み二値化部130は、複数の時間フレームにおいて求められた時間重み係数ψ(τ)を含むデータベースに基づいて、K-means法又はFuzzy c-means法等に従って時間重み係数を2つのクラスタにクラスタリングしてよい。そして、時間重み二値化部130は、2つのクラスタのセントロイドの平均値(又は、中間点)を閾値に設定してもよい。
 図14において、乗算部24は、ψ-(τ)とλ-(τ, k)との積によって重み係数w- 2(τ, k)を推定する。
 バリエーション1によれば、重み係数算出部101aは、例えば、閾値以上の時間重み係数ψ(τ)に対応する時間フレームτ、つまり、単音源が存在する可能性がより高い時間フレームτのDoA単位ベクトルに基づいて重み係数w- 2(τ, k)を算出する。換言すると、重み係数算出部101aは、単音源が存在する可能性(換言すると、正しいDoAに対応する可能性)がより高い時間フレームτに対する時間重み係数をより強調して算出する。
 これにより、到来方向推定装置100は、例えば、目標としない音源、周囲雑音又は反響音等が含まれる可能性が低い時間フレームτにおけるDoA単位ベクトルに基づいて、DoA推定を行うことが可能となり、DoAの推定精度を向上できる。
 また、バリエーション1によれば、音源(換言すると、単音源)が存在する可能性の高い時間フレームτの時間重み係数を、単音源が存在する可能性の低い時間フレームτの時間重み係数と比較して強調する。これにより、到来方向推定装置100は、例えば、単音源が存在する可能性(換言すると、正しいDoAに対応する可能性)の高い時間フレームτにおけるDoAの推定結果に基づく重み係数w- 2(τ, k)を推定できる。換言すると、重み係数w- 2(τ, k)の推定において、単音源が存在する可能性(換言すると、正しいDoAに対応する可能性)の低い時間フレームτにおけるDoAの推定結果の影響を低減できる。よって、例えば、互いに近接した音源が存在する場合でも、到来方向推定装置100は、これらの近接した音源のそれぞれがアクティブである各時間フレームτにおいて、各音源の方向に対応するDoA単位ベクトルを代表DoA単位ベクトルに設定しやすくなり、DoAの推定精度を向上できる。
 (バリエーション2)
 図15は、バリエーション1に係る重み係数算出部101bの構成例を示すブロック図である。
 なお、図15において、図13と同様の構成には同一の符号を付し、その説明を省略する。例えば、図15では、図13と比較して、平均DoA単位ベクトル推定部21を備えず、時間重み算出部22の代わりに、時間重み算出部140を備える。
 図15において、時間重み算出部140は、周波数重み算出部120から入力される周波数重み係数λ-(τ, k)に基づいて、時間重み係数ψ=(τ)を算出する。例えば、時間重み算出部140は、次式(10)に従って、時間重み係数ψ=(τ)を算出する。
Figure JPOXMLDOC01-appb-M000010
 式(10)に示すように、時間重み係数ψ=(τ)は、時間フレームτにおける周波数重み係数λ-(τ, k)の平均値である。
 ここで、各時間フレームτ及び各周波数ビンkにおける周波数重み係数λ-(τ, k)は、例えば、対応するDoA単位ベクトルu(τ, k)と、代表DoA単位ベクトルu~(τ, k)との離れ具合に応じて決定される。例えば、DoA単位ベクトルu(τ, k)と代表DoA単位ベクトルu~(τ, k)とが離れるほど、周波数重み係数λ-(τ, k)は小さくなる。
 よって、各時間フレームτにおいて、代表DoA単位ベクトルu~(τ, k)から離れている単位ベクトルu(τ, k)を有する周波数ビンが多いほど、代表DoA単位ベクトルの方向と異なる方向に音源が存在していることを意味し、周波数重み係数λ-(τ, k)の平均値(換言すると、ψ=(τ))も小さくなる。一方、各時間フレームτにおいて、代表DoA単位ベクトルu~(τ, k)と近い単位ベクトルu(τ, k)を有する周波数ビンが多いほど、代表DoA単位ベクトルの方向に音源が存在していることを意味し、周波数重み係数λ-(τ, k)の平均値(換言すると、ψ=(τ))も高くなる。
 よって、周波数重み係数λ-(τ, k)の平均値が小さいほど、時間重み係数ψ=(τ)は、音源が2つ以上ある可能性を示す指標となる。換言すると、周波数重み係数λ-(τ, k)の平均値が大きいほど、時間重み係数ψ=(τ)は、単音源である可能性を示す指標となる。
 このように、バリエーション2によれば、重み係数算出部101bは、例えば、時間重み係数ψ=(τ)がより高い時間フレームτ、すなわち、単音源が存在する可能性がより高い時間フレームτのDoA単位ベクトルに基づいて重み係数を算出する。これにより、到来方向推定装置100は、例えば、目標としない音源、周囲雑音又は反響音等が含まれる可能性が低い時間フレームτにおけるDoA単位ベクトルに基づいて、DoA推定を行うことが可能となり、DoAの推定精度を向上できる。
 なお、時間重み係数が単音源及び複数の音源の何れかを示す指標である場合、音源がマイクロホンからどれだけ離れているかは無関係となる。このため、時間重み算出部140は、例えば、次式(11)に従って、時間重み係数ψ=(τ)を算出してもよい。
Figure JPOXMLDOC01-appb-M000011
 ここで、Thは、単一音源として許容するλの範囲を規定する閾値を示す。換言すると、時間重み算出部140は、周波数重み係数λ-(τ, k)を二値化した値(0又は1の何れか)に基づいて、時間重み係数を算出してもよい。
 これにより、重み係数算出部101bは、単音源が存在する可能性(換言すると、正しいDoAに対応する可能性)がより高い時間フレームτに対する時間重み係数ψ=(τ)をより強調して算出でき、DoAの推定精度を向上できる。
 (バリエーション3)
 上記実施の形態及びバリエーション1、2では、代表DoA単位ベクトルの算出にユークリッド距離を用いる場合について説明した。しかし、代表DoA単位ベクトルの算出には、ユークリッド距離の他のパラメータが用いられてもよい。例えば、代表DoA単位ベクトルの算出には、次式(12)に示す角度距離が用いられてもよい。
Figure JPOXMLDOC01-appb-M000012
 以上、本開示の実施の形態について説明した。
 なお、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
 通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
 通信には、セルラーシステム、無線LANシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
 また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
 また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
 本開示の一実施例に係る到来方向推定装置は、マイクロホンアレイにおいて収録された信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出する算出回路と、前記周波数重み係数に基づいて、前記音源からの前記信号の到来方向を推定する推定回路と、を具備する。
 本開示の一実施例において、前記算出回路は、前記複数の周波数成分の前記単位ベクトルのうち、他の周波数成分の単位ベクトルとの差分が最小の単位ベクトルに基づいて、前記周波数重み係数を算出する。
 本開示の一実施例において、前記差分は、前記単位ベクトル間のユークリッド距離及び角度距離の少なくとも一つである。
 本開示の一実施例において、前記算出回路は、前記周波数重み係数に加え、前記信号の時間成分に対する時間重み係数を算出し、前記推定回路は、前記周波数重み係数と前記時間重み係数との積に基づいて、前記到来方向を推定する。
 本開示の一実施例において、前記時間重み係数は、各時間成分における、前記複数の周波数成分の前記単位ベクトルの平均値に基づいて算出される値を二値化した値である。
 本開示の一実施例において、前記算出回路は、前記周波数重み係数に基づいて、前記時間重み係数を算出する。
 本開示の一実施例において、前記算出回路は、前記周波数重み係数を二値化した値に基づいて、前記時間重み係数を算出する。
 本開示の一実施例に係るシステムは、音源からの信号の到来方向を推定する到来方向推定装置と、前記到来方向へのビームフォーミングによって音響信号を抽出するビームフォーマと、前記音響信号を符号化する符号化装置と、前記符号化された音響信号を復号する復号装置と、を具備し、前記到来方向推定装置は、マイクロホンアレイにおいて収録された前記信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出し、前記周波数重み係数に基づいて、前記到来方向を推定する。
 本開示の一実施例に係る到来方向推定方法は、到来方向推定装置が、マイクロホンアレイにおいて収録された信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出し、前記周波数重み係数に基づいて、前記音源からの前記信号の到来方向を推定する。
 2019年4月24日出願の特願2019-082998の日本出願に含まれる明細書図面および要約書の開示内容は、すべて本願に援用される。
 本開示の一実施例は、音響信号伝送システム等に有用である。
 1,100 到来方向推定装置
 10 DoA単位ベクトル推定部
 20,101,101a,101b 重み係数算出部
 21 平均DoA単位ベクトル推定部
 22,140 時間重み算出部
 23,120 周波数重み算出部
 24 乗算部
 30 選択部
 40 クラスタリング部
 110 代表DoA単位ベクトル推定部
 130 時間重み二値化部
 200,200-1,200-2 ビームフォーマ
 300,300-1,300-2 符号化装置
 400,400-1,400-2 復号装置
 500,500-1,500-2 メタデータ符号化装置
 600 多重化部
 700 逆多重化部
 800,800-1,800-2 メタデータ復号装置
 900 レンダラ
 1000 加算部
 1100 減算部

Claims (9)

  1.  マイクロホンアレイにおいて収録された信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出する算出回路と、
     前記周波数重み係数に基づいて、前記音源からの前記信号の到来方向を推定する推定回路と、
     を具備する到来方向推定装置。
  2.  前記算出回路は、前記複数の周波数成分の前記単位ベクトルのうち、他の周波数成分の単位ベクトルとの差分が最小の単位ベクトルに基づいて、前記周波数重み係数を算出する、
     請求項1に記載の到来方向推定装置。
  3.  前記差分は、前記単位ベクトル間のユークリッド距離及び角度距離の少なくとも一つである、
     請求項1に記載の到来方向推定装置。
  4.  前記算出回路は、前記周波数重み係数に加え、前記信号の時間成分に対する時間重み係数を算出し、
     前記推定回路は、前記周波数重み係数と前記時間重み係数との積に基づいて、前記到来方向を推定する、
     請求項1に記載の到来方向推定装置。
  5.  前記時間重み係数は、各時間成分における、前記複数の周波数成分の前記単位ベクトルの平均値に基づいて算出される値を二値化した値である、
     請求項4に記載の到来方向推定装置。
  6.  前記算出回路は、前記周波数重み係数に基づいて、前記時間重み係数を算出する、
     請求項4に記載の到来方向推定装置。
  7.  前記算出回路は、前記周波数重み係数を二値化した値に基づいて、前記時間重み係数を算出する、
     請求項6に記載の到来方向推定装置。
  8.  音源からの信号の到来方向を推定する到来方向推定装置と、
     前記到来方向へのビームフォーミングによって音響信号を抽出するビームフォーマと、
     前記音響信号を符号化する符号化装置と、
     前記符号化された音響信号を復号する復号装置と、
     を具備し、
     前記到来方向推定装置は、
     マイクロホンアレイにおいて収録された前記信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出し、
     前記周波数重み係数に基づいて、前記到来方向を推定する、
     システム。
  9.  到来方向推定装置が、
     マイクロホンアレイにおいて収録された信号の複数の周波数成分のそれぞれにおける音源の方向を示す単位ベクトル間の差分に基づいて、前記複数の周波数成分に対する周波数重み係数をそれぞれ算出し、
     前記周波数重み係数に基づいて、前記音源からの前記信号の到来方向を推定する、
     到来方向推定方法。
PCT/JP2020/011534 2019-04-24 2020-03-16 到来方向推定装置、システム、及び、到来方向推定方法 WO2020217781A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20795773.9A EP3962101A4 (en) 2019-04-24 2020-03-16 DIRECTION OF ARRIVAL ESTIMATING DEVICE, SYSTEM, AND METHOD FOR DIRECTION OF ARRIVAL
JP2021515869A JP7469298B2 (ja) 2019-04-24 2020-03-16 到来方向推定装置、システム、及び、到来方向推定方法
US17/600,513 US11994605B2 (en) 2019-04-24 2020-03-16 Direction of arrival estimation device, system, and direction of arrival estimation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-082998 2019-04-24
JP2019082998 2019-04-24

Publications (1)

Publication Number Publication Date
WO2020217781A1 true WO2020217781A1 (ja) 2020-10-29

Family

ID=72942541

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/011534 WO2020217781A1 (ja) 2019-04-24 2020-03-16 到来方向推定装置、システム、及び、到来方向推定方法

Country Status (4)

Country Link
US (1) US11994605B2 (ja)
EP (1) EP3962101A4 (ja)
JP (1) JP7469298B2 (ja)
WO (1) WO2020217781A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009506683A (ja) * 2005-08-26 2009-02-12 ステップ・コミュニケーションズ・コーポレーション 強調された位相差値を使用して雑音弁別を改良するための方法および装置
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US20100315904A1 (en) * 2009-06-09 2010-12-16 Atlas Elektronik Gmbh Direction-finding method and installation for detection and tracking of successive bearing angles
JP2018142917A (ja) * 2017-02-28 2018-09-13 日本電信電話株式会社 音源定位装置、方法、及びプログラム
JP2019082998A (ja) 2017-09-29 2019-05-30 インターデジタル シーイー パテント ホールディングス 深度マップにおける擬似画素をフィルタリングするための方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2670165B1 (en) * 2008-08-29 2016-10-05 Biamp Systems Corporation A microphone array system and method for sound acquistion
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
CN102404672B (zh) * 2011-10-27 2013-12-18 苏州上声电子有限公司 数字化扬声器阵列系统的通道均衡与波束控制方法和装置
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
JP6441769B2 (ja) 2015-08-13 2018-12-19 日本電信電話株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
US10080088B1 (en) * 2016-11-10 2018-09-18 Amazon Technologies, Inc. Sound zone reproduction system
US10264350B2 (en) * 2017-03-03 2019-04-16 Panasonic Intellectual Property Corporation Of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
CA3134343A1 (en) 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009506683A (ja) * 2005-08-26 2009-02-12 ステップ・コミュニケーションズ・コーポレーション 強調された位相差値を使用して雑音弁別を改良するための方法および装置
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US20100315904A1 (en) * 2009-06-09 2010-12-16 Atlas Elektronik Gmbh Direction-finding method and installation for detection and tracking of successive bearing angles
JP2018142917A (ja) * 2017-02-28 2018-09-13 日本電信電話株式会社 音源定位装置、方法、及びプログラム
JP2019082998A (ja) 2017-09-29 2019-05-30 インターデジタル シーイー パテント ホールディングス 深度マップにおける擬似画素をフィルタリングするための方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. HAFEZIA. H. MOOREP. A. NAYLOR: "Multiple source localization using estimation consistency in the time-frequency domain", ICASSP, March 2017 (2017-03-01), pages 516 - 520, XP033258471, DOI: 10.1109/ICASSP.2017.7952209
See also references of EP3962101A4

Also Published As

Publication number Publication date
JPWO2020217781A1 (ja) 2020-10-29
US11994605B2 (en) 2024-05-28
JP7469298B2 (ja) 2024-04-16
EP3962101A4 (en) 2022-07-06
EP3962101A1 (en) 2022-03-02
US20220120839A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
US9549253B2 (en) Sound source localization and isolation apparatuses, methods and systems
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
US9589571B2 (en) Method and device for improving the rendering of multi-channel audio signals
RU2519295C2 (ru) Транскодировщик аудио формата
US9955277B1 (en) Spatial sound characterization apparatuses, methods and systems
JP5449624B2 (ja) 到来方向推定値から曖昧性を解消する装置及び方法
CN109791769A (zh) 使用自适应捕捉从麦克风阵列生成空间音频信号格式
US11832078B2 (en) Signalling of spatial audio parameters
TW202205259A (zh) 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置
CN111542877B (zh) 空间音频参数编码和相关联的解码的确定
TW201237849A (en) Apparatus and method for geometry-based spatial audio coding
US20240185869A1 (en) Combining spatial audio streams
US20230260525A1 (en) Transform ambisonic coefficients using an adaptive network for preserving spatial direction
WO2020217781A1 (ja) 到来方向推定装置、システム、及び、到来方向推定方法
US11956615B2 (en) Spatial audio representation and rendering
Schörkhuber et al. Localization of multiple acoustic sources with a distributed array of unsynchronized first-order ambisonics microphones
WO2020066542A1 (ja) 音響オブジェクト抽出装置及び音響オブジェクト抽出方法
TW202113804A (zh) 基於方向性音訊寫碼之空間音訊寫碼用封包丟失消隱技術
WO2024053353A1 (ja) 信号処理装置、及び、信号処理方法
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
US20240079014A1 (en) Transforming spatial audio parameters
Venkatesan et al. Estimation of Distance of a Target Speech Source by Involving Monaural Features and Statistical Properties

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20795773

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021515869

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020795773

Country of ref document: EP

Effective date: 20211124