WO2020184210A1 - 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム - Google Patents

雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム Download PDF

Info

Publication number
WO2020184210A1
WO2020184210A1 PCT/JP2020/008216 JP2020008216W WO2020184210A1 WO 2020184210 A1 WO2020184210 A1 WO 2020184210A1 JP 2020008216 W JP2020008216 W JP 2020008216W WO 2020184210 A1 WO2020184210 A1 WO 2020184210A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
time
covariance matrix
space covariance
noise space
Prior art date
Application number
PCT/JP2020/008216
Other languages
English (en)
French (fr)
Inventor
中谷 智広
マーク デルクロア
慶介 木下
荒木 章子
優騎 久保
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/437,701 priority Critical patent/US11676619B2/en
Publication of WO2020184210A1 publication Critical patent/WO2020184210A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to a technique for generating a noise space covariance matrix.
  • Non-Patent Document 1 discloses a technique for suppressing noise from an observation signal in the frequency domain using a noise space covariance matrix.
  • the noise space covariance matrix obtained from the observation signal in the frequency domain and the steering vector representing the sound source direction or its estimation vector are used, and the constraint condition that the sound coming from the sound source to the microphone is not distorted is also satisfied.
  • a beamformer that minimizes the noise power in the frequency domain is estimated, and this is applied to the observation signal in the frequency domain to suppress the noise.
  • the noise space covariance matrix is estimated for the entire input acoustic signal in a long time interval. Then, when estimating the beamformer in each time block, the noise space covariance matrix obtained for the entire input signal was used. That is, the beamformer was estimated based on the noise space covariance matrix common to each time block.
  • the noise to be suppressed may include a signal such as voice whose sound level changes greatly from moment to moment.
  • the noise space is set for each time block.
  • the covariance matrix is considered to be different. Therefore, it is desirable to estimate the time-varying noise space covariance matrix for each time block.
  • As a simple method it is possible to estimate the noise space covariance matrix of each time block for only the acoustic signal of each time block, but this shortens the time interval of the acoustic signal used for estimation, so that both the noise space and the noise space The accuracy of the covariance matrix is reduced.
  • an object of the present invention is to provide a technique for effectively estimating a time-varying noise space covariance matrix.
  • a time frequency signal expressed by dividing an acoustic signal into discrete time points (time frames) and discrete frequencies (frequency bands) is used.
  • an observation signal expressed as a time frequency signal is called a time frequency observation signal.
  • the present invention corresponds to an observation signal for each time frequency based on an observation signal obtained by collecting acoustic signals emitted from a single or a plurality of sound sources, and each noise source included in each observation signal for each time frequency.
  • the mask information representing the occupancy probability of the component to be used the time-frequency-specific observation signal belonging to the long-time section and the time-independent first noise space co-dispersion matrix corresponding to the mask information are obtained for each noise source.
  • the mask information of each of a plurality of different short-time sections is used to obtain a mixed weight corresponding to each of the noise sources in each of the short-time sections.
  • the time-varying second noise space covariance matrix corresponding to the time-frequency-specific observation signals and the mask information belonging to each short-time interval and each short-time
  • a time-varying third noise space covariance matrix is obtained based on the weighted sum of the first noise space covariance matrix based on the mixed weight of the interval.
  • the third noise space covariance matrix is based on the first noise space covariance matrix of the long time interval while following the changes of the short time interval based on the second noise space covariance matrix of each short time interval and the mixed weight. High accuracy can be guaranteed. This makes it possible to effectively estimate the time-varying noise space covariance matrix.
  • FIG. 1 is a block diagram for exemplifying the functional configuration of the noise space covariance matrix estimation device of the embodiment.
  • FIG. 2 is a flow chart for exemplifying the noise space covariance matrix estimation method of the embodiment.
  • FIG. 3A is a block diagram for exemplifying the functional configuration of the noise removal device using the noise space covariance matrix estimation device of the embodiment.
  • FIG. 3B is a flow chart for exemplifying a noise removal method using the noise space covariance matrix estimation method of the embodiment.
  • I is a positive integer representing the number of microphones.
  • i i is a positive integer representing the microphone number and satisfies 1 ⁇ i ⁇ I.
  • the microphone with the microphone number i (that is, the i-th microphone) is referred to as "microphone i".
  • the value or vector corresponding to the microphone number i is represented by a symbol having the subscript "i”.
  • S is a positive integer representing the number of sound sources. For example, S ⁇ 2.
  • the sound source includes a target sound source and a noise source other than the target sound source.
  • s is a positive integer representing the sound source number and satisfies 1 ⁇ s ⁇ S.
  • the sound source of the sound source number s (that is, the sth sound source) is referred to as "sound source s".
  • J J is a positive integer representing the number of noise sources. For example, S ⁇ J ⁇ 1.
  • j, j': j, j' is a positive integer representing the noise source number and satisfies 1 ⁇ j, j' ⁇ J.
  • the noise source of noise source number j (that is, the j-th noise source) is referred to as "noise source j".
  • the noise source number is indicated by the upper right subscript with parentheses.
  • L L represents a long section.
  • the long-time section may be a full-time section to be processed, or may be a part of the full-time section to be processed.
  • a short time interval B 1 is that obtained by dividing a long time interval L into K time intervals, ..., a B K.
  • Short section B 1, ..., some or all of the B K may be those included in the prolonged than the interval L section.
  • t, ⁇ : t, ⁇ are positive integers representing time frame numbers.
  • the value or vector corresponding to the time frame number t is represented by a symbol having the subscript "t".
  • ⁇ . f: f is a positive integer representing a frequency band number.
  • the value or vector corresponding to the frequency band number f is represented by a symbol having the subscript "f".
  • T represents a non-conjugated transpose of a matrix or vector.
  • ⁇ T represents a matrix or vector obtained by non-conjugated transpose of ⁇ .
  • H represents a conjugated transpose (Hermitian transpose) of a matrix or a vector.
  • ⁇ H represents a matrix or vector obtained by conjugate transpose of ⁇ .
  • the noise space covariance matrix estimation device 10 of the present embodiment includes noise space covariance matrix calculation units 11 and 13, and a mixed weight calculation unit 12.
  • the noise space co-dispersion matrix calculation unit 11 collects acoustic signals emitted from one or more sound sources s ⁇ ⁇ 1, ..., S ⁇ and obtains an observation signal based on an observation signal x t, by time frequency .
  • the mask information ⁇ t, f (j) representing the occupation probability of the component corresponding to each noise source j included in f and each time frequency observation signal x t, f is used as input, and each noise source is used.
  • the time-independent noise space covariance matrix ⁇ f (corresponding to the time-frequency-specific observation signals x t, f and mask information ⁇ t, f (j) belonging to the long-time interval L j) Obtain (first noise space co-dispersion matrix) and output it (step S11).
  • the noise source includes not only sound generated from one place (point sound source) such as voice, but also sound (diffusive noise) arriving from all directions such as background noise.
  • the acoustic signal emitted from the sound source s is collected by I microphones i ⁇ ⁇ 1, ..., I ⁇ (not shown).
  • I microphones i ⁇ ⁇ 1, ..., I ⁇ any of the sound sources s ⁇ ⁇ 1, ..., S ⁇ is the noise source j ⁇ ⁇ 1, ..., J ⁇ .
  • Digital signals collected acoustic signal time domain X ⁇ , 1, ..., X ⁇ , is converted into I
  • a digital signal X tau in the time domain, 1, ..., X tau, I is every predetermined time interval
  • the frequency domain is converted to.
  • An example of frequency domain transformation for each time interval is the short-time Fourier transform.
  • the noise space covariance matrix calculation unit 11 of the present embodiment is input with at least time-frequency-specific observation signals x t, f (where t ⁇ L) belonging to the long-time interval L.
  • time-frequency-specific observation signals x t, f belonging to the long-time section L may be input, or the time-frequency-specific observation signals x t, f belonging to the time section longer than the long-time section L including the long-time section L may be input. May be entered.
  • the long-time section L There is no limitation on the long-time section L.
  • the entire time section in which sound is collected may be designated as a long-time section L
  • the audio section cut out from the entire time section may be designated as a long-time section L
  • a predetermined time section may be designated as a long-time section L.
  • the designated time interval may be set as a long-time interval L.
  • An example of the long-time section L is a time section of about 1 second to several tens of seconds.
  • the time-frequency-based observation signals xt and f may be stored in a storage device (not shown) or may be transmitted through a network.
  • the mask information ⁇ t, f (j) represents the occupancy probability of the component corresponding to each noise source j included in the observation signals x t, f for each time frequency.
  • the mask information ⁇ t, f (j) is the j-th included in the observation signals x t, f, 1 , ..., X t, f, I for each time frequency of the frequency band f in the time frame t. Represents the occupancy probability of the component corresponding to the noise source of.
  • the mask information ⁇ t, f (j) corresponding to is estimated.
  • the estimation method of the mask information ⁇ t, f (j) is well known, and for example, an estimation method using a complex Gaussian mixture model (CGMM) (for example, Reference 1) and an estimation method using a neural network (for example, Reference 2). ), And various methods such as an estimation method combining them (for example, Reference 3) are known.
  • CGMM complex Gaussian mixture model
  • Reference 1 T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online / offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210- 5214, 2016.
  • Reference 2 J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
  • Reference 3 T. Nakatani, N. Ito, T. Higuchi, S. Araki, and K.
  • the mask information ⁇ t, f (j) may be estimated in advance and stored in a storage device (not shown ) , or may be estimated sequentially.
  • the noise space covariance matrix calculation unit 11 of the present embodiment receives the time-frequency-specific observation signals x t, f and the mask information ⁇ t, f (j) as inputs, and the time-frequency-specific observation signals x belonging to the long-time section L. t, to estimate the f and mask information lambda t, f (j) the noise spatial covariance matrix of the time-independent corresponding to [psi f (j) for outputting.
  • the noise space covariance matrix ⁇ f (j) is ⁇ t, f (j) ⁇ x t, f ⁇ x t, f H for the frequency band f in the time frame t ⁇ L belonging to the long interval L. Is the sum or weighted sum of.
  • the noise space covariance matrix calculation unit 11 calculates (estimates) and outputs the noise space covariance matrix ⁇ f (j) as in the following equation (1).
  • ⁇ f (j) is a real parameter (hyperparameter)
  • ⁇ f (j) of this embodiment is a constant. The significance of ⁇ f (j) will be described later.
  • the mixed weight calculation unit 12 takes the mask information ⁇ t, f (j) of each of a plurality of short intervals B k (where k ⁇ ⁇ 1, ..., K ⁇ ) different from each other as inputs, and uses them to input each short interval.
  • the mixed weights ⁇ k and f (j) corresponding to each noise source j ⁇ ⁇ 1, ..., J ⁇ in the time interval B k are obtained and output (step S12).
  • An example of the mixed weights ⁇ k, f (j) is the mask information corresponding to the frequency band f in the time frame number t belonging to each short interval B k for the total noise source j' ⁇ ⁇ 1, ..., J ⁇ .
  • the mixed weight calculation unit 12 obtains and outputs the mixed weights ⁇ k and f (j) as shown in the following equation (2).
  • the noise space covariance matrix calculation unit 13 includes observation signals x t, f for each time frequency, mask information ⁇ t, f (j) for each noise source j ⁇ ⁇ 1, ..., J ⁇ , and noise space for each noise source j. Taking the covariance matrix ⁇ f (j) and the mixed weights ⁇ k and f (j) of each noise source j as inputs, each short interval B k (whereever, for each noise source n ⁇ ⁇ 1, ..., J ⁇ ).
  • Time-varying noise-space covariance matrix (second noise-space covariance matrix ) corresponding to time-frequency-specific observation signals x t, f and mask information ⁇ t, f (j) belonging to k ⁇ ⁇ 1, ..., K ⁇ ) )
  • the spatial covariance matrix R ⁇ k, f (third noise space covariance matrix) is obtained and output (step S13).
  • the upper right subscript " ⁇ " of "R” should be written directly above “R”, but may be written in the upper right of “R” due to restrictions on the description notation.
  • the noise space co-dispersion matrix (second noise space co-dispersion matrix) is ⁇ t, f (j) ⁇ x t, f ⁇ x t at the time frame t belonging to each short time interval B k and the total noise source j.
  • the noise space covariance matrix R ⁇ k, f (third noise space covariance matrix) is for noise composed of the sum of all noise sources by each short time interval B k and time frequency belonging to the frequency band f.
  • a time-varying noise space covariance matrix (second noise space covariance matrix) corresponding to the observed signals x t, f and mask information ⁇ t, f (j), and a noise space with mixed weights ⁇ k, f (j). It is based on the weighted sum of the total noise sources j ⁇ ⁇ 1, ..., J ⁇ of the covariance matrix ⁇ f (j) .
  • the noise space covariance matrix calculation unit 13 calculates (estimates) and outputs the time-varying noise space covariance matrices R ⁇ k and f as in the following equation (3).
  • the noise space covariance matrix R ⁇ k, f in this example is the noise space covariance matrix.
  • the parameter ⁇ f (j) is the noise space covariance matrix ⁇ f (j) and the noise space covariance matrix in the noise space covariance matrix R ⁇ k, f . It determines the weight of.
  • the noise space covariance matrix calculation unit 13 uses time-frequency-specific observation signals x t, f , and mask information ⁇ t, f (j) of each noise source j ⁇ ⁇ 1, ..., J ⁇ .
  • An example is shown in which the noise space covariance matrix ⁇ f (j) of each noise source j and the noise space covariance matrix R ⁇ k, f are obtained by inputting the mixed weights ⁇ k and f (j) of each noise source j.
  • this does not limit the present invention.
  • ⁇ t, f (j) ⁇ x t obtained by the noise space covariance matrix calculation unit 13 during the calculation by the noise space covariance matrix calculation unit 11 instead of the time-frequency-specific observation signals x t, f. , F ⁇ x t, f H may be input to obtain the noise space covariance matrix R ⁇ k, f .
  • each short-time interval B k (where k ⁇ ⁇ 1, ..., K ⁇ ) and the time-frequency-specific observation signals x t belonging to each frequency band f , F and the time-varying noise space covariance matrix (second noise space covariance matrix) corresponding to the mask information ⁇ t, f (j) and the mixed weights ⁇ k, f (j) of each short time interval B k.
  • the noise space covariance matrix ⁇ f (j) is calculated by using all the time-frequency-specific observation signals x t, f and mask information ⁇ t, f (j) belonging to the long-time interval L ( In step S11), high estimation accuracy can be ensured for the noise space covariance matrix ⁇ f (j) .
  • a short time interval B 1, ..., the B K, total noise source foot happiness is configured noise for each short time interval B k belonging time per frequency observed signal x t, f and mask information lambda t, and varying noise spatial covariance matrix when corresponding to f (j), the weighted sum of the mixture weights ⁇ k, f (j) by the noise spatial covariance matrix ⁇ f (j) for each short time interval B k, the In order to obtain the time-varying noise space covariance matrix R ⁇ k, f based on it, the obtained noise space covariance matrix R ⁇ k, f flexibly follows the time change in each short time interval B k. .. As described above, in the embodiment, it is possible to obtain a noise space covariance matrix having high accuracy and flexibly following the time change of the observation signals xt and f for each time frequency.
  • the noise space covariance matrix estimation device 10 of the present embodiment includes noise space covariance matrix calculation units 21 and 23 and a mixed weight calculation unit 12.
  • the noise space covariance matrix calculation units 11 and 13 of the first embodiment have calculated the equations (1) and (3) using, for example, the predetermined parameters ⁇ f (j) .
  • Noise spatial covariance matrix calculating unit of the second embodiment with respect to this 21 and 23, for example, further receives an input of parameters ⁇ f (j), Formula using the input parameter ⁇ f (j) (1 ) Perform the calculation of (3).
  • the estimation accuracy will be improved in exchange for the decrease.
  • the smaller the value of the parameter ⁇ f (j) the more the noise space covariance matrix.
  • the degree of follow-up of the observation signals xt and f for each time frequency to the time change is improved. Other than that, it is as described in the first embodiment.
  • the third embodiment is an application example of the first and second embodiments, and uses the noise space covariance matrix R ⁇ k and f generated as in the first and second embodiments for noise suppression processing.
  • the configuration of the noise suppression device 30 of the third embodiment and the processing content thereof will be described with reference to FIGS. 3A and 3B.
  • the noise suppression device 30 of the third embodiment includes a noise space covariance matrix estimation device 10 or 20, a beamformer estimation unit 32, and a suppression unit 33.
  • the noise space covariance matrix estimation device 10 or 20 further observes signals x t, f by time frequency and mask information ⁇ t, f (j) (if necessary, further The noise space covariance matrix R ⁇ k, f is generated and output with the parameter ⁇ f (j) ) as an input (step S10 (step S20)).
  • the noise space covariance matrix R ⁇ k, f is sent to the beamformer estimation unit 32.
  • B k Instantaneous beam former
  • Methods for generating the steering vectors v f, 0 and the beam former (instantaneous beam former) W k, f are known and are described in, for example, References 4 and 5.
  • Reference 4 T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online / offline ASR in noise," Proc. ICASSP 2016, 2016.
  • the suppression unit 33 inputs the observation signals x t, f for each time frequency and the beam formers W k, f, and uses the beam formers W k, f as the observation signals x t, for each time frequency as shown in the following equation (4) . It is applied to f , and the time-frequency-specific suppression signals yt and f in which noise is suppressed are obtained from the time-frequency-specific observation signals xt and f and output.
  • y t, f W k, f x t, f (4)
  • the time-frequency-specific suppression signals yt and f may be used for other processing in the frequency domain, or may be converted into the time domain.
  • the beamformer is estimated using the time-invariant noise covariance matrix estimation method shown in Non-Patent Document 1.
  • the word error rate can be improved by about 20% as compared with the case where the signal obtained by suppressing noise is used for voice recognition processing.
  • the present invention is not limited to the above-described embodiment.
  • the long-time interval L is not updated, but while updating the long-time interval L, the time-varying noise space covariance matrix R ⁇ k, for each short-time interval as described above . f may be obtained.
  • the noise space covariance matrix R ⁇ k, f may be obtained by batch processing as described above, or the time-series time-frequency observation signals x t, which are input to the noise space covariance matrix estimation device in real time .
  • the data for the long-time interval L may be sequentially cut out from f and the mask information ⁇ t, f (j) to obtain the noise space covariance matrix R ⁇ k, f as described above.
  • the noise space covariance matrix ⁇ f (j) may be calculated as follows. However, ⁇ is a coefficient, which may be a constant or a variable. Further, instead of the equation (3), the noise space covariance matrix R ⁇ k, f may be calculated as follows. However, ⁇ is a coefficient, which may be a constant or a variable.
  • the noise space covariance matrix R ⁇ k, f is used for noise suppression processing, but the noise space covariance matrix R ⁇ k, f is used for other purposes such as estimation of the sound source position (sound source direction). You may use it.
  • Each of the above devices is, for example, a general-purpose or dedicated computer including a processor (hardware processor) such as a CPU (central processing unit) and a memory such as a RAM (random-access memory) and a ROM (read-only memory). Is composed of executing a predetermined program.
  • This computer may have one processor and memory, or may have a plurality of processors and memory.
  • This program may be installed in a computer or may be recorded in a ROM or the like in advance.
  • a part or all of the processing units are configured by using an electronic circuit that realizes a processing function without using a program, instead of an electronic circuit (circuitry) that realizes a function configuration by reading a program like a CPU. You may.
  • the electronic circuits constituting one device may include a plurality of CPUs.
  • the processing contents of the functions that each device should have are described by a program.
  • the above processing function is realized on the computer.
  • the program describing the processing content can be recorded on a computer-readable recording medium.
  • An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such recording media are magnetic recording devices, optical disks, opto-magnetic recording media, semiconductor memories, and the like.
  • Circulation of this program is carried out by selling, transferring or lending a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads the program stored in its own storage device and executes the process according to the read program.
  • Another form of execution of this program may be for the computer to read the program directly from a portable recording medium and perform processing according to the program, and each time the program is transferred from the server computer to this computer. , Sequentially, the processing according to the received program may be executed.
  • ASP Application Service Provider
  • the processing functions of the present device may not be realized by executing a predetermined program on a computer, but at least a part of these processing functions may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

時変の雑音空間共分散行列を効果的に推定する。単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各雑音源について長時間区間に属する時間周波数別観測信号およびマスク情報に対応する時間非依存の第1雑音空間共分散行列を得る。また、互いに異なる複数の短時間区間それぞれのマスク情報を用い、各短時間区間における各雑音源に対応する混合重みを得る。さらに雑音源すべての足しあわせで構成される雑音について各短時間区間に属する時間周波数別観測信号およびマスク情報に対応する時変の第2雑音空間共分散行列と、各短時間区間の混合重みによる第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る。

Description

雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
 本発明は、雑音空間共分散行列を生成する技術に関する。
 音響信号の分析において、雑音空間共分散行列がしばしば用いられる。例えば、非特許文献1では、雑音空間共分散行列を用いて周波数領域の観測信号から雑音を抑圧する技術が開示されている。この方法では、周波数領域の観測信号から得た雑音空間共分散行列と音源方向を表すステアリングベクトルまたはその推定ベクトルとを用いて、音源からマイクロホンに到来する音を歪ませないとの拘束条件のもと、周波数領域の雑音のパワーを最小化するビームフォーマを推定し、これを周波数領域の観測信号に適用することで、雑音を抑圧する。
T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.
 非特許文献1等の従来法では、長い時間区間の入力音響信号全体を対象として雑音空間共分散行列の推定を行っていた。そして、各時間ブロックにおいてビームフォーマを推定する際には、入力信号全体について求めた雑音空間共分散行列を用いていた。つまり、各時間ブロックで共通の雑音空間共分散行列に基づきビームフォーマを推定していた。
 実環境においては、抑圧すべき雑音の中には、音声のように音のレベルが時々刻々と大きく変化する信号が含まれている場合もあり、このような場合は、時間ブロックごとに雑音空間共分散行列は異なると考えられる。そのため、時間ブロックごとの時変の雑音空間共分散行列を推定することが望ましい。単純な方法として、各時間ブロックの音響信号のみを対象として各時間ブロックの雑音空間共分散行列を推定することも考えられるが、これでは推定に用いる音響信号の時間区間が短くなるため雑音空間共分散行列の精度が低下してしまう。
 このような問題に鑑み、本発明では時変の雑音空間共分散行列を効果的に推定する技術を提供することを目的とする。
 以下、本発明では、音響信号を離散的な時間点(時間フレーム)と離散的な周波数(周波数帯)に分割して表現した時間周波数信号を用いる。例えば、観測信号を時間周波数信号として表現したものを時間周波数別観測信号と呼ぶことにする。
 本発明では、単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る。また、互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る。さらに前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第2雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る。
 第3雑音空間共分散行列は、各短時間区間の第2雑音空間共分散行列および混合重みに基づいて短時間区間の変化に追従しつつ、長時間区間の第1雑音空間共分散行列に基づいて高い精度を担保できる。これにより、時変の雑音空間共分散行列を効果的に推定できる。
図1は実施形態の雑音空間共分散行列推定装置の機能構成を例示するためのブロック図である。 図2は実施形態の雑音空間共分散行列推定方法を例示するためのフロー図である。 図3Aは実施形態の雑音空間共分散行列推定装置を利用した雑音除去装置の機能構成を例示するためのブロック図である。図3Bは実施形態の雑音空間共分散行列推定方法を利用した雑音除去方法を例示するためのフロー図である。
 以下、図面を参照して本発明の実施形態を説明する。
 [記号の定義]
 まず、以下の実施形態で使用する記号を定義する。
 I:Iはマイクロホン数を表す正整数である。例えば、I≧2である。
 i:iはマイクロホン番号を表す正整数であり、1≦i≦Iを満たす。マイクロホン番号iのマイクロホン(すなわちi番目のマイクロホン)を「マイクロホンi」と表記する。マイクロホン番号iに対応する値やベクトルは、下付き添え字「i」を持つ記号で表現される。
 S:Sは音源数を表す正整数である。例えば、S≧2である。音源は目的音源と目的音源以外の雑音源とを含む。
 s:sは音源番号を表す正整数であり、1≦s≦Sを満たす。音源番号sの音源(すなわちs番目の音源)を「音源s」と表記する。
 J:Jは雑音源数を表す正整数である。例えば、S≧J≧1である。
 j,j’:j,j’は雑音源番号を表す正整数であり、1≦j,j’≦Jを満たす。雑音源番号jの雑音源(すなわちj番目の雑音源)を「雑音源j」と表記する。また雑音源番号は丸括弧付きの右上添え字で表す。雑音源番号jの雑音源に基づく値やベクトルは、右上添え字「(j)」を持つ記号で表現される。j’についても同様である。また、本明細書では、全雑音源から発せられた音を足し合わせた音を雑音として扱う。
 L:Lは長時間区間を表す。長時間区間は処理対象の全時間区間であってもよいし、処理対象の全時間区間の一部の時間区間であってもよい。
 B:Bは一つの短時間区間(短時間ブロック)を表す。異なる複数の短時間区間をB,…,Bで表し、Kは1以上の整数であり、k=1,…,Kである。例えば、長時間区間LをK個の時間区間に区分して得られるのが短時間区間B,…,Bである。短時間区間B,…,Bの一部またはすべては、長時間区間L以外の区間に含まれるものであってもよい。
 t,τ:t,τは時間フレームの番号を表す正整数である。時間フレーム番号tに対応する値やベクトルは、下付き添え字「t」を持つ記号で表現される。τについても同様である。
 f:fは周波数帯域番号を表す正整数である。周波数帯域番号fに対応する値やベクトルは、下付き添え字「f」を持つ記号で表現される。
 T:Tは行列やベクトルの非共役転置を表す。αはαを非共役転置して得られる行列やベクトルを表す。
 H:Hは行列やベクトルの共役転置(エルミート転置)を表す。αはαを共役転置して得られる行列やベクトルを表す。
 α∈β:α∈βはαがβに属することを表す。
 [第1実施形態]
 次に図1および図2を参照して第1実施形態の雑音空間共分散行列推定装置10の構成およびその処理内容を説明する。
 図1に例示するように、本実施形態の雑音空間共分散行列推定装置10は、雑音空間共分散行列計算部11,13、および混合重み計算部12を有する。
 <雑音空間共分散行列計算部11(第1雑音空間共分散行列計算部)>
 雑音空間共分散行列計算部11は、単数または複数の音源s∈{1,…,S}から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号xt,f、および、各時間周波数別観測信号xt,fに含まれる各雑音源jに対応する成分の占有確率を表すマスク情報λt,f (j)を入力とし、それらを用い、各雑音源j∈{1,…,J}について長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時間非依存の雑音空間共分散行列Ψ (j)(第1雑音空間共分散行列)を得て出力する(ステップS11)。なお、雑音源とは、音声のように一つの場所から生成される音(点音源)以外に、暗騒音のように周囲のあらゆる方向から到来する音(拡散性雑音)も含むものとする。また、「λt,f (j)」の右上添字の「(j)」は本来右下添字の「t,f」の真上に記載すべきであるが、記載表記の制約上、「t,f」の右上に記載してある。「Ψ (j)」などその他の右上添字「(j)」を用いた表記も同様である。
 ≪時間周波数別観測信号xt,fの例示≫
 音源sから発せられた音響信号はI個のマイクロホンi∈{1,…,I}(図示せず)で集音される。例えば、音源s∈{1,…,S}の何れかは雑音源j∈{1,…,J}である。集音された音響信号は時間領域のデジタル信号Xτ,1,…,Xτ,Iに変換され、時間領域のデジタル信号Xτ,1,…,Xτ,Iは、所定の時間区間ごとに周波数領域変換される。時間区間ごとの周波数領域変換の一例は短時間フーリエ変換である。例えば、当該時間区間ごとの周波数領域変換によって得られた信号を時間周波数別観測信号xt,f,1,…,xt,f,Iとし、xt,f=(xt,f,1,…,xt,f,Iとしてもよいし、当該時間区間ごとの周波数領域変換によって得られた信号らに何等かの演算を行って得られたものを時間周波数別観測信号xt,f,1,…,xt,f,Iとし、xt,f=(xt,f,1,…,xt,f,Iとしてもよい。すなわち、例えばi番目のマイクロホンで集音して得られた観測信号に対応する時間フレームtでの周波数帯域fに対応する各時間周波数別観測信号がxt,f,i(i∈{1,…,I})であり、xt,f=(xt,f,1,…,xt,f,Iである。本実施形態の雑音空間共分散行列計算部11には、少なくとも長時間区間Lに属する時間周波数別観測信号xt,f(ただしt∈L)が入力される。長時間区間Lに属する時間周波数別観測信号xt,fのみが入力されてもよいし、長時間区間Lを含む長時間区間Lよりも長い時間区間に属する時間周波数別観測信号xt,fが入力されてもよい。長時間区間Lに限定はない。例えば、集音が行われた時間区間全体を長時間区間Lとしてもよいし、そこから切り出された音声区間を長時間区間Lとしてもよいし、予め定められた時間区間を長時間区間Lとしてもよいし、指定された時間区間を長時間区間Lとしてもよい。長時間区間Lの例は、1秒から数十秒程度の時間区間である。時間周波数別観測信号xt,fは、図示していない記憶装置に格納されたものであってもよいし、ネットワークを通じて送信されるものであってもよい。
 ≪マスク情報λt,f (j)の例示≫
 マスク情報λt,f (j)は、各時間周波数別観測信号xt,fに含まれる各雑音源jに対応する成分の占有確率を表す。言い換えると、マスク情報λt,f (j)は、時間フレームtでの周波数帯域fの各時間周波数別観測信号xt,f,1,…,xt,f,Iに含まれたj番目の雑音源に対応する成分の占有確率を表す。本実施形態では、図示していない外部の装置によって、少なくとも長時間区間Lに属する時間フレームt∈Lおよび短時間区間Bに属する時間フレームt∈Bについて各周波数帯域fおよび各雑音源jに対応するマスク情報λt,f (j)が推定されるものとする。マスク情報λt,f (j)の推定方法に限定はない。マスク情報λt,f (j)の推定方法は周知であり、例えば、complex Gaussian mixture model (CGMM)を用いる推定方法(例えば、参考文献1)、ニューラルネットワークを用いる推定方法(例えば、参考文献2)、およびそれらを結合した推定方法(例えば、参考文献3)などの様々な方法が知られている。
 参考文献1:T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016.
 参考文献2:J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
 参考文献3:T. Nakatani, N. Ito,  T. Higuchi, S. Araki, and K. Kinoshita, "Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IEEE ICASSP-2017, pp. 286-290, 2017.
 マスク情報λt,f (j)は、事前に推定されて図示していない記憶装置に格納されたものであってもよいし、逐次的に推定されるものであってもよい。
 ≪雑音空間共分散行列Ψ (j)の例示≫
 本実施形態の雑音空間共分散行列計算部11は、時間周波数別観測信号xt,fとマスク情報λt,f (j)とを入力とし、長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時間非依存の雑音空間共分散行列Ψ (j)を推定して出力する。例えば、雑音空間共分散行列Ψ (j)は、長時間区間Lに属する時間フレームt∈Lでの周波数帯域fについてのλt,f (j)・xt,f・xt,f の総和または重み付け和である。例えば、雑音空間共分散行列計算部11は、以下の式(1)のように雑音空間共分散行列Ψ (j)を計算(推定)して出力する。
Figure JPOXMLDOC01-appb-M000001
ただし、ν (j)は実数のパラメータ(ハイパーパラメータ)であり、本実施形態のν (j)は定数である。ν (j)の意義については後述する。
 <混合重み計算部12>
 混合重み計算部12は、互いに異なる複数の短時間区間B(ただし、k∈{1,…,K})それぞれのマスク情報λt,f (j)を入力とし、それらを用いて各短時間区間Bにおける各雑音源j∈{1,…,J}に対応する混合重みμk,f (j)を得て出力する(ステップS12)。混合重みμk,f (j)の例は、全雑音源j’∈{1,…,J}についての各短時間区間Bに属する時間フレーム番号tでの周波数帯域fに対応するマスク情報λt,f (j’)の総和に対する、各雑音源jについての各短時間区間Bに属する時間フレームtでの周波数帯域fに対応するマスク情報λt,f (j)の総和の割合である。例えば、混合重み計算部12は、以下の式(2)のように混合重みμk,f (j)を得て出力する。
Figure JPOXMLDOC01-appb-M000002
 <雑音空間共分散行列計算部13(第2雑音空間共分散行列計算部)>
 雑音空間共分散行列計算部13は、時間周波数別観測信号xt,f、各雑音源j∈{1,…,J}のマスク情報λt,f (j)、各雑音源jの雑音空間共分散行列Ψ (j)、および各雑音源jの混合重みμk,f (j)を入力とし、各雑音源n∈{1,…,J}について各短時間区間B(ただし、k∈{1,…,K})に属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、各短時間区間Bの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)(第1雑音空間共分散行列)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,f(第3雑音空間共分散行列)を得て出力する(ステップS13)。なお、「R」の右上添字「^」は本来「R」の真上に記載すべきであるが、記載表記の制約上、「R」の右上に記載する場合がある。例えば、全雑音源の足しあわせで構成される雑音について各短時間区間Bおよび周波数帯域fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)は、各短時間区間Bに属する時間フレームtおよび全雑音源jでのλt,f (j)・xt,f・xt,f の総和または重み付け和である。また、雑音空間共分散行列R^k,f(第3雑音空間共分散行列)は、全雑音源の足しあわせで構成される雑音について各短時間区間Bおよび周波数帯域fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、混合重みμk,f (j)による雑音空間共分散行列Ψ (j)の全雑音源j∈{1,…,J}についての重み付け和と、の重み付け和に基づく。例えば、雑音空間共分散行列計算部13は、以下の式(3)のように時変の雑音空間共分散行列R^k,fを計算(推定)して出力する。
Figure JPOXMLDOC01-appb-M000003
この例の雑音空間共分散行列R^k,fは、雑音空間共分散行列
Figure JPOXMLDOC01-appb-M000004
と、各短時間区間Bでの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)の重み付け和
Figure JPOXMLDOC01-appb-M000005
との重み付け和であり、パラメータν (j)は、雑音空間共分散行列R^k,fにおける雑音空間共分散行列Ψ (j)および雑音空間共分散行列
Figure JPOXMLDOC01-appb-M000006
の重みを決定するものである。
 なお、ここでは一例として、雑音空間共分散行列計算部13が、時間周波数別観測信号xt,f、各雑音源j∈{1,…,J}のマスク情報λt,f (j)、各雑音源jの雑音空間共分散行列Ψ (j)、および各雑音源jの混合重みμk,f (j)を入力として雑音空間共分散行列R^k,fを得る例を示したがこれは本発明を限定しない。すなわち、雑音空間共分散行列計算部13が、時間周波数別観測信号xt,fに代えて雑音空間共分散行列計算部11での計算途中で得られたλt,f (j)・xt,f・xt,f を入力として雑音空間共分散行列R^k,fを得てもよい。
 <本実施形態の特徴>
 本実施形態では、全雑音源の足しあわせで構成される雑音について各短時間区間B(ただし、k∈{1,…,K})および各周波数帯fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、各短時間区間Bの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)(第1雑音空間共分散行列)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,f(第3雑音空間共分散行列)を生成した。ここで、雑音空間共分散行列Ψ (j)は長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)をすべて用いて計算されたものであり(ステップS11)、雑音空間共分散行列Ψ (j)について高い推定精度を担保できる。一方で、短時間区間B,…,Bについて、全雑音源の足しあわせで構成される雑音について各短時間区間Bに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列と、各短時間区間Bの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,fを得るため、得られた雑音空間共分散行列R^k,fは各短時間区間Bでの時間変化に柔軟に追従するものとなる。このように実施形態では、精度が高く、時間周波数別観測信号xt,fの時間変化に柔軟に追従する雑音空間共分散行列を得ることができる。
 [第2実施形態]
 次に第2実施形態を説明する。第2実施形態の第1実施形態との相違点は、入力されたパラメータに基づいて、第3雑音空間共分散行列における第1雑音空間共分散行列および第2雑音空間共分散行列の重みを変更可能な点である。以下では既に説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を用いて説明を簡略化する。
 図1に例示するように、本実施形態の雑音空間共分散行列推定装置10は、雑音空間共分散行列計算部21,23、および混合重み計算部12を有する。第1実施形態の雑音空間共分散行列計算部11,13は、例えば、予め定められたパラメータν (j)を用いて式(1)(3)の計算を行っていた。これに対して第2実施形態の雑音空間共分散行列計算部21,23は、例えば、さらにパラメータν (j)の入力を受け付け、入力されたパラメータν (j)を用いて式(1)(3)の計算を行う。これにより、雑音空間共分散行列R^k,fにおける雑音空間共分散行列Ψ (j)および雑音空間共分散行列
Figure JPOXMLDOC01-appb-M000007
の重みを調整できる。すなわち、パラメータν (j)の値を大きくすればするほど、雑音空間共分散行列Ψ (j)の重みが大きくなり、時間周波数別観測信号xt,fの時間変化への追従度合の低下と引き換えに推定精度を向上させることになる。逆に、パラメータν (j)の値を小さくすればするほど、雑音空間共分散行列
Figure JPOXMLDOC01-appb-M000008
の重みが大きくなり、推定の安定性と引き換えに時間周波数別観測信号xt,fの時間変化への追従度合を向上させることになる。それ以外は第1実施形態で説明した通りである。
 [第3実施形態]
 次に第3実施形態を説明する。第3実施形態は第1,2実施形態の応用例であり、第1,2実施形態のように生成された雑音空間共分散行列R^k,fを雑音抑圧処理に利用するものである。以下、図3Aおよび図3Bを参照して第3実施形態の雑音抑圧装置30の構成およびその処理内容を説明する。
 図3Aに例示するように、第3実施形態の雑音抑圧装置30は、雑音空間共分散行列推定装置10または20、ビームフォーマ推定部32、および抑圧部33を有する。
 雑音空間共分散行列推定装置10または20は、第1または第2実施形態で説明したように、時間周波数別観測信号xt,fおよびマスク情報λt,f (j)(必要に応じてさらにパラメータν (j))を入力として雑音空間共分散行列R^k,fを生成して出力する(ステップS10(ステップS20))。雑音空間共分散行列R^k,fはビームフォーマ推定部32に送られる。
 ビームフォーマ推定部32は、この雑音空間共分散行列R^k,fとビームフォーマを用いて推定したい音源に対応するステアリングベクトルvf,0とを入力とし、短時間区間Bごとにビームフォーマ(瞬時ビームフォーマ)Wk,fを生成して出力する(ステップS32)。ステアリングベクトルvf,0およびビームフォーマ(瞬時ビームフォーマ)Wk,fの生成方法は公知であり、例えば参考文献4,5等に記載されている。
 参考文献4:T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.
 参考文献5:J Heymann, L Drude, R Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc.ICASSP 2016, 2016.
 ビームフォーマWk,fは抑圧部33に送られる。
 抑圧部33は、時間周波数別観測信号xt,fおよびビームフォーマWk,fを入力とし、以下の式(4)のように、ビームフォーマWk,fを時間周波数別観測信号xt,fに適用し、時間周波数別観測信号xt,fから雑音を抑圧した時間周波数別抑圧信号yt,fを得て出力する。
t,f=Wk,ft,f (4)
 時間周波数別抑圧信号yt,fは周波数領域で他の処理に利用されてもよいし、時間領域に変換されてもよい。例えば、上述のように得られた時間周波数別抑圧信号yt,fを音声認識処理に利用した場合、非特許文献1に示した時不変の雑音共分散行列推定法を用いてビームフォーマを推定し雑音抑圧をしてえられる信号を音声認識処理に利用する場合に比べて単語誤り率を20%程度改善できる。
 [その他の変形例等]
 なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態では長時間区間Lの更新が行われなかったが、長時間区間Lを更新しながら、各短時間区間について上述のように時変の雑音空間共分散行列R^k,fを得てもよい。例えば、バッチ処理によって前述のように雑音空間共分散行列R^k,fを得てもよいし、リアルタイムで雑音空間共分散行列推定装置に入力される時系列の時間周波数別観測信号xt,fおよびマスク情報λt,f (j)から長時間区間L分のデータを順次切り出して前述のように雑音空間共分散行列R^k,fを得てもよい。
 式(1)に代えて以下のように雑音空間共分散行列Ψ (j)を計算してもよい。
Figure JPOXMLDOC01-appb-M000009
ただし、βは係数であり、定数であってもよいし、変数であってもよい。
 また、式(3)に代えて以下のように雑音空間共分散行列R^k,fを計算してもよい。
Figure JPOXMLDOC01-appb-M000010
ただし、θは係数であり、定数であってもよいし、変数であってもよい。
 また第3実施形態では雑音空間共分散行列R^k,fを雑音抑圧処理に利用したが、雑音空間共分散行列R^k,fを音源位置(音源方向)の推定などの他の用途に利用してもよい。
 上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
 上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
 コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
10,20 雑音空間共分散行列推定装置

Claims (5)

  1.  単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る第1雑音空間共分散行列計算部と、
     互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算部と、
     前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第2雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る第2雑音空間共分散行列計算部と、
    を有する雑音空間共分散行列推定装置。
  2.  請求項1の雑音空間共分散行列推定装置であって、
     前記第3雑音空間共分散行列は、前記第2雑音空間共分散行列と、各前記短時間区間での前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、の重み付け和であり、
     前記第3雑音空間共分散行列における前記第1雑音空間共分散行列および前記第2雑音空間共分散行列の重みを変更可能である、雑音空間共分散行列推定装置。
  3.  請求項1または2の雑音空間共分散行列推定装置であって、
     αはαの非共役転置を表し、αはαの共役転置を表し、
     J個の前記雑音源が存在し、Jが1以上の整数であり、
     前記観測信号はI個のマイクロホンで集音されたものであり、Iが2以上の整数であり、
     i番目のマイクロホンで集音して得られた前記観測信号に対応する時間フレームtでの周波数帯域fに対応する各前記時間周波数別観測信号がxt,f,iであり、xt,f=(xt,f,1,…,xt,f,Iであり、
     時間フレームtでの周波数帯域fの各前記時間周波数別観測信号xt,f,1,…,xt,f,Iに含まれたj番目の前記雑音源に対応する成分の占有確率を表す前記マスク情報がλt,f (j)であり、
     j番目の各前記雑音源に対応する前記第1雑音空間共分散行列は、前記長時間区間に属する時間フレームtでの周波数帯域fについてのλt,f (j)・xt,f・xt,f の総和または重み付け和であるΨ (j)であり、
     各前記短時間区間B,…,Bについて、Kが2以上の整数であり、k=1,…,Kであり、
     各前記雑音源j∈{1,…,J}についての各前記短時間区間Bでの周波数帯域fに対応する前記混合重みμk,f (j)が、全前記雑音源j’∈{1,…,J}についての各前記短時間区間Bに属する時間フレームtでの周波数帯域fに対応する前記マスク情報λt,f (j’)の総和に対する、各前記雑音源jについての各前記短時間区間Bに属する時間フレームtでの周波数帯域fに対応する前記マスク情報λt,f (j)の総和の割合であり、
     前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間Bおよび各周波数帯fに属する前記時間周波数別観測信号xt,fおよび前記マスク情報λt,f (j)に対応する前記第2雑音空間共分散行列は、各前記短時間区間Bおよび各周波数帯fに属する時間フレームtおよび全雑音源jでのλt,f (j)・xt,f・xt,f の総和または重み付け和であり、
     前記第3雑音空間共分散行列が、前記第2雑音空間共分散行列と、前記混合重みμk,f (j)による前記第1雑音空間共分散行列Ψ (j)の全前記雑音源jについての重み付け和と、の重み付け和に基づく、雑音空間共分散行列推定装置。
  4.  単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る第1雑音空間共分散行列計算ステップと、
     互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算ステップと、
     前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第2雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る第2雑音空間共分散行列計算ステップと、
    を有する雑音空間共分散行列推定方法。
  5.  請求項1から3の何れかに記載の雑音空間共分散行列推定装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/008216 2019-03-13 2020-02-28 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム WO2020184210A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/437,701 US11676619B2 (en) 2019-03-13 2020-02-28 Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019045649A JP7159928B2 (ja) 2019-03-13 2019-03-13 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP2019-045649 2019-03-13

Publications (1)

Publication Number Publication Date
WO2020184210A1 true WO2020184210A1 (ja) 2020-09-17

Family

ID=72427857

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/008216 WO2020184210A1 (ja) 2019-03-13 2020-02-28 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Country Status (3)

Country Link
US (1) US11676619B2 (ja)
JP (1) JP7159928B2 (ja)
WO (1) WO2020184210A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIGUCHI, TAKUYA ET AL.: "Robust MVDR beamforming using time-frequency masks for online /offline ASR in noise", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 19 May 2016 (2016-05-19), pages 5210 - 5214, XP032901597, ISSN: 2379-190X *
KUBO, YUKI ET AL.: "Mask-based MVDR beamformer for noisy multisource environments: Introduction of time-varing spatial covariance model", 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 16 April 2019 (2019-04-16), pages 6855 - 6859, XP033565643, ISSN: 2379-190X *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统

Also Published As

Publication number Publication date
JP2020148880A (ja) 2020-09-17
JP7159928B2 (ja) 2022-10-25
US20220130406A1 (en) 2022-04-28
US11676619B2 (en) 2023-06-13

Similar Documents

Publication Publication Date Title
US10924849B2 (en) Sound source separation device and method
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
US8848933B2 (en) Signal enhancement device, method thereof, program, and recording medium
JP3949150B2 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
CN106031196B (zh) 信号处理装置、方法以及程序
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP2020148909A (ja) 信号処理装置、信号処理方法およびプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP4630203B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP7444243B2 (ja) 信号処理装置、信号処理方法、およびプログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
US20220141584A1 (en) Latent variable optimization apparatus, filter coefficient optimization apparatus, latent variable optimization method, filter coefficient optimization method, and program
WO2021255925A1 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
WO2021171406A1 (ja) 信号処理装置、信号処理方法、およびプログラム
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
WO2024038522A1 (ja) 信号処理装置、信号処理方法、プログラム
US20240127841A1 (en) Acoustic signal enhancement apparatus, method and program
JP2018191255A (ja) 収音装置、その方法、及びプログラム
JP7173355B2 (ja) Psd最適化装置、psd最適化方法、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20770993

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20770993

Country of ref document: EP

Kind code of ref document: A1