WO2019208137A1 - 音源分離装置、その方法、およびプログラム - Google Patents

音源分離装置、その方法、およびプログラム Download PDF

Info

Publication number
WO2019208137A1
WO2019208137A1 PCT/JP2019/014817 JP2019014817W WO2019208137A1 WO 2019208137 A1 WO2019208137 A1 WO 2019208137A1 JP 2019014817 W JP2019014817 W JP 2019014817W WO 2019208137 A1 WO2019208137 A1 WO 2019208137A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
acoustic signal
sound source
source separation
noise
Prior art date
Application number
PCT/JP2019/014817
Other languages
English (en)
French (fr)
Inventor
弘章 伊藤
悠馬 小泉
登 原田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2019208137A1 publication Critical patent/WO2019208137A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention provides an observation signal obtained when a known acoustic signal is applied to a microphone in a noisy environment (for example, when a known acoustic signal is reproduced and a reproduced sound is recorded by the microphone), and a known acoustic signal.
  • the present invention relates to a sound source separation device that separates a speech component and a noise component contained in an observation signal from a signal.
  • Data for performance evaluation as described above generally prepared speech signal database, not previously shown to reproduce the target sound s t from the speaker 71 as shown in FIG. 1, the interference noise n t from the speaker 72
  • the SN ratio is estimated by the SN ratio estimator 74 using the observation signal x t recorded by the microphone 73.
  • the observed signal x t also include diffuse noise d t. t is an index indicating time.
  • Non-Patent Document 1 target sound as in FIG. 2 (a original sound signal, a source referred to as a source or source signal) to the speech period information obtained from s t send speech segment (in Figure 2 A speech component is obtained from T s0 to T s1 ) and a noise component is obtained from a non-speech interval (T n0 to T n1 in FIG. 2) (see Non-Patent Document 1).
  • FIG. 2A is a state in which non-stationary noise does not exist
  • FIG. 2B non-stationary noise exists in a section including a non-speech section (T n0 to T n1 in FIG. 2), and the SN ratio is higher than the user experience value
  • FIG. 2C non-stationary noise exists in the section including the speech section (T s0 to T s1 in FIG. 2), and the SN ratio is estimated to be higher than the user experience value.
  • the target signal s ⁇ , ⁇ ⁇ C (C is the entire set of complex numbers) and the coherent noise n ⁇ , ⁇ ⁇ C and the diffusive noise d ⁇ , ⁇ ⁇ C are superimposed as follows: From ⁇ , ⁇ ⁇ C, the target sound-derived component (speech component) a ⁇ s ⁇ , ⁇ included in the observation signal x ⁇ , ⁇ and the noise-derived component (noise component) n ⁇ , ⁇ + d ⁇ , ⁇ Dealing with the problem of estimating.
  • x ⁇ , ⁇ a ⁇ s ⁇ , ⁇ + n ⁇ , ⁇ + d ⁇ , ⁇ (1)
  • x ⁇ , ⁇ , s ⁇ , ⁇ , n ⁇ , ⁇ , d ⁇ , ⁇ are converted from time domain signals x t , st , n t , dt to frequency domain signals, respectively.
  • ⁇ ⁇ 1,..., ⁇ and ⁇ ⁇ 1,..., ⁇ are frequency and (frame) time indices
  • a ⁇ is the transfer characteristic from the target sound position (target sound generation position) to the observation position. (Also called transfer function).
  • the absolute value of the complex number is expressed in uppercase letters corresponding to each lowercase letter such as
  • X ⁇ , ⁇ .
  • lowercase variables are complex and uppercase variables are real.
  • the diffuse noise stationary noise such as background noise including air-conditioning sound is assumed.
  • non-stationary noise such as an utterance of a person who is not originally recorded, a TV voice, or a sudden sound is assumed.
  • the nonlinear filter is designed with the following equation:
  • sSNR sector-SNR
  • Equation (2) in order to estimate the nonlinear filter G ⁇ , ⁇ , it is necessary to estimate the transfer characteristic A ⁇ , target sound S ⁇ , ⁇ , coherent noise N ⁇ , ⁇ , and diffusive noise D ⁇ , ⁇ There is.
  • transfer characteristics A ⁇ , coherent noise N ⁇ , ⁇ , and diffusive noise D ⁇ , ⁇ are obtained from the observed signal X ⁇ , ⁇ .
  • observation signal X ⁇ , ⁇ A ⁇ S ⁇ , ⁇ + N ⁇ , ⁇ + D ⁇ , ⁇ (6)
  • Dispersive noise D omega typical in a manner of estimating the tau is to diffuse noise D omega, tau is assumed to be stationary noise, the expected value of the observation signal X omega, tau.
  • NMF non-negative matrix factorization
  • W S ⁇ , r and W N ⁇ , k are the basis of the amplitude spectrum of the target sound and coherent noise
  • H S r, ⁇ and H N k, ⁇ are the amplitudes of the target sound and coherent noise, respectively. It is the intensity (activation) corresponding to each base of the spectrum
  • R and K are the respective base numbers.
  • G.160 Revised Appendix II-Objective measures for the characterization of the basic functioning of noise reduction algorithms
  • International Telecommunication Union D. Kitamura, N. Ono, H. Saruwatari, Y. Takahashi, and K. Kondo "DISCRIMINATIVE AND RECONSTRUCTIVE BASIS TRAINING FOR AUDIO SOURCE SEPARATION WITH SEMI-SUPERVISED NONNEGATIVE 2016
  • An object of the present invention is to provide a sound source separation technology device with higher separation accuracy than the conventional one.
  • the sound source separation device acquires a desired acoustic signal from an observation signal obtained by recording a predetermined acoustic signal emitted from a speaker with a microphone.
  • the observation signal includes a first acoustic signal based on a predetermined acoustic signal and a transfer function that represents a spatial characteristic between the speaker and the microphone, an interference noise acoustic signal that is coherent noise, and diffusive noise.
  • the sound source separation device removes the estimated value of the diffusive noise acoustic signal from the observation signal and obtains the removed signal, and the removed noise signal.
  • a filter design unit that obtains a filter by combining a probability distribution modeled with a probability distribution modeled with a transfer function, and a noise component including at least a first acoustic signal and a coherent noise acoustic signal from an observation signal by the filter
  • a sound source separation unit that separates the estimated value of.
  • the separation accuracy is higher than the conventional one. Further, the use of each separated component has the effect that the SN ratio estimation accuracy is higher than in the prior art.
  • FIG. 2A is a diagram showing a state where non-stationary noise does not exist
  • FIG. 2B is a diagram showing a state where non-stationary noise exists in a section including a non-speech section
  • FIG. 2C is a non-stationary noise in a section including a utterance section.
  • the functional block diagram of the SN ratio estimation apparatus which concerns on 1st embodiment.
  • ⁇ Points of first embodiment> by extending the semi-supervised NMF, the transfer characteristics A ⁇ , coherent noise N ⁇ , ⁇ , and diffusive noise D ⁇ , ⁇ are estimated from the observed signals X ⁇ , ⁇ , and the SN ratio is calculated. Provide an estimation method.
  • the point of this embodiment is ⁇
  • Semi-supervised NMF is preliminarily estimated for diffusive noise to be applied to the observation model in the real environment such as Equation (1) and Equation (6), and is removed from the observation signal.
  • MAP maximum-a-posteriori
  • D omega diffuse noise D omega
  • tau diffuse noise D omega
  • the diffusive noise D ⁇ , ⁇ is estimated as follows. ⁇ D ⁇ , ⁇ ⁇ ⁇ ⁇ min [X ⁇ , ⁇ -F_wd , X ⁇ , ⁇ -F_wd + 1 ,..., X ⁇ , ⁇ + B_wd ]
  • F_wd and B_wd are parameters that define the number of time frames in which D ⁇ and ⁇ are stationary, and can be obtained by tuning.
  • each may be set to about 20.
  • is a predetermined value. Then, the observation signal (hereinafter, also referred to as “removed signal”) Y ⁇ , ⁇ from which the diffusive noise D ⁇ , ⁇ has been removed can be described as follows.
  • the base W S ⁇ , r and the intensity H S r, ⁇ of the amplitude spectrum of the target sound can be estimated by using a conventional semi-supervised NMF framework (see Non-Patent Document 2).
  • a method for estimating the base W N ⁇ , k , the intensity H N k, ⁇ and the transfer characteristic A ⁇ of the amplitude spectrum of the coherent noise from the removed signal Y ⁇ , ⁇ will be described.
  • the estimated values of W S ⁇ , r , H S r, ⁇ , W N ⁇ , k , H N k, ⁇ , A ⁇ are ⁇ W S ⁇ , r , ⁇ H S r, ⁇ , ⁇ W N It is written as ⁇ , k , ⁇ H N k, ⁇ , ⁇ A ⁇ .
  • the transfer characteristic A ⁇ is originally a physical parameter, and estimation accuracy can be improved by incorporating acoustic prior knowledge such as the shape of the room and the observation environment.
  • each parameter is estimated by MAP estimation.
  • _ ⁇ ) for the transfer characteristic A ⁇ are designed, and the following equation (11 ) Are estimated so as to maximize the joint probability L of).
  • a Poisson distribution which is a probability distribution obtained by probabilistic interpretation of the generalized KL information amount, is applied to the likelihood function.
  • the transfer characteristic A ⁇ since the transfer characteristic A ⁇ is a non-negative variable, the Poisson distribution is applied.
  • each distribution is an exponential family, it is more efficient in numerical calculation to maximize the simultaneous probability L by maximizing the logarithmic simultaneous distribution with logarithms on both sides.
  • logarithm is taken for each distribution, it can be described as follows.
  • J ′ ( ⁇ ) is maximized with respect to ⁇ r, ⁇ , ⁇ , and by repeating the process of maximizing each variable under the ⁇ r, ⁇ , ⁇ , the objective function J ( The parameter can be estimated to monotonically increase ⁇ ).
  • the update algorithm based on the auxiliary function method is as follows.
  • Equations (22) and (23) may be changed to the following update rule as an approximation of the above algorithm.
  • _E is a matrix of ⁇ ⁇ ⁇ and all elements are 1, and division of the matrix represents division for each element.
  • FIG. 4 is a functional block diagram of the SN ratio estimation apparatus according to the first embodiment, and FIG. 5 shows an example of the processing flow.
  • the SN ratio estimation apparatus 100 includes an initialization unit 102, a diffusive noise removal unit 103, a filter design unit 104, a sound source separation unit 105, and a signal-to-noise ratio estimation unit 106.
  • the target sound s omega obtained by converting the target sound s t in the time domain to be reproduced by the loudspeaker 71 into a frequency domain signal, tau, of the observed signal x t the frequency domain of the time domain was recorded by the microphone 73
  • the observation signal x ⁇ , ⁇ converted to a signal and various parameters are input.
  • the target sound s ⁇ , ⁇ in the frequency domain and the observation signal x ⁇ , ⁇ are described as input.
  • the target sound s t in the time domain and the observation signal x t are input. It is good also as a structure to be. Where t is a time index.
  • the signal-to-noise ratio estimation apparatus 100 performs processing for conversion to a frequency domain signal.
  • fast Fourier transform or the like may be used for frequency conversion, and the Fourier transform length may be 256 points and the number of shift points may be 128 points.
  • the SN ratio estimation device is, for example, a special program configured by reading a special program into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), etc. Device.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • the SN ratio estimation apparatus executes each process under the control of the central processing unit. Data input to the SN ratio estimation device and data obtained in each process are stored in, for example, a main storage device, and the data stored in the main storage device is read out to the central processing unit as necessary. Used for other processing.
  • At least a part of each processing unit of the SN ratio estimation apparatus may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the SN ratio estimation device can be configured by, for example, a main storage device such as RAM (Random Access Memory) or middleware such as a relational database or a key-value store.
  • a main storage device such as RAM (Random Access Memory) or middleware such as a relational database or a key-value store.
  • middleware such as a relational database or a key-value store.
  • each storage unit is not necessarily provided in the SN ratio estimation device, and is configured by an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory (Flash memory), and the SN ratio is determined. It is good also as a structure provided in the exterior of an estimation apparatus.
  • the initialization unit 102 receives the target sound s ⁇ , ⁇ , the observation signal x ⁇ , ⁇ , and various parameters.
  • the initialization unit 102 estimates the diffusive noise D ⁇ , ⁇ according to the equation (8) using the observation signal x ⁇ , ⁇ and ⁇ , and outputs the estimated value ⁇ D ⁇ , ⁇ . ⁇ D ⁇ , ⁇ ⁇ ⁇ ⁇ min [X ⁇ , ⁇ -F_wd , X ⁇ , ⁇ -F_wd + 1 ,..., X ⁇ , ⁇ + B_wd ] (8)
  • the initialization unit 102 uses, for example, the target sound s ⁇ , ⁇ and the basis number R to estimate the basis value in an existing NMF framework (see Non-Patent Document 2) based on generalized KL information minimization.
  • ⁇ W S ⁇ , r and intensity estimate ⁇ H S r, ⁇ are obtained and output. For example, since the target sound S ⁇ , ⁇ is known, the base estimate ⁇ W S ⁇ , r and the intensity estimate ⁇ H S r, ⁇ are changed to the target sound S ⁇ , ⁇
  • Non-Patent Document 2 The base estimation value ⁇ W N ⁇ , k and the intensity estimation value ⁇ H N k, ⁇ are initialized with a non-negative random number or the like.
  • the initialization unit 102 performs, for example, the estimation value ⁇ D ⁇ , ⁇ , the basis estimation value ⁇ W S ⁇ , r , the intensity estimation value ⁇ H S r, ⁇ , and the basis estimation value ⁇ W N by the above-described method.
  • Initial values of ⁇ , k and estimated intensity ⁇ H N k, ⁇ are obtained (S102) and output.
  • the estimated transfer value ⁇ A ⁇ , k , the estimated base value ⁇ W N ⁇ , k , and the estimated strength value ⁇ H N k, ⁇ are values that are repeatedly updated in this embodiment, but the estimated value ⁇ D
  • the initial values of ⁇ , ⁇ , the estimated base value ⁇ W S ⁇ , r and the estimated intensity value ⁇ H S r, ⁇ may be used as they are once set for one usage environment.
  • the diffusive noise removing unit 103 receives the observation signal x ⁇ , ⁇ and the estimated value ⁇ D ⁇ , ⁇ of the diffusive noise D ⁇ , ⁇ as inputs, and from the observation signal x ⁇ , ⁇ by the expression (9) The estimated value of D ⁇ , ⁇ is removed, and the removed signal Y ⁇ , ⁇ is obtained (S103) and output.
  • the filter design unit 104 calculates a basis estimate ⁇ W S ⁇ , r , an intensity estimate ⁇ H S r, ⁇ , a basis estimate ⁇ W N ⁇ , k and an intensity estimate ⁇ H N k, ⁇ initial value, and removing spent signal Y omega, tau, diffuse noise D omega, estimate of tau ⁇ D omega, tau, observed signal x omega, tau, base number K, and input various parameters including R.
  • Filter design unit 104-removed signal Y omega give a probability distribution that models the tau, and the probability distribution that models the transfer characteristics A omega, the nonlinear filter G omega by combining the tau (S104), the output To do.
  • the joint probability L of Equation (11) that combines the likelihood function p (_A, _N
  • Each parameter _A, _N, and _ ⁇ is estimated so as to maximize.
  • L p (_A, _N
  • This process maximizes the following objective function J ( ⁇ ) with each parameter (base estimate ⁇ W N ⁇ , k , strength estimate ⁇ H N k, ⁇ , transfer characteristic estimate ⁇ A This corresponds to the process of estimating ⁇ ).
  • the base estimate ⁇ W N ⁇ , k and the intensity estimate ⁇ H N k, ⁇ Updating the transfer characteristic estimated value ⁇ A ⁇ (S104-1) means maximizing the joint probability L and estimating each parameter _A, _N, _ ⁇ .
  • the filter design unit 104 ends the update, and the estimated value of the base ⁇ W N ⁇ , k at the end, the estimated value of the intensity ⁇ H N k, ⁇ , and the transmission Using the estimated value ⁇ A ⁇ of the characteristic, a nonlinear filter G ⁇ , ⁇ represented by the following equation is obtained (S104-3) and output.
  • the filter design unit 104 repeats the update process S104-1 until a predetermined condition is satisfied.
  • a predetermined condition (i) S104-1 is repeated a predetermined number of times (for example, 100 times), and (ii) the update amount is smaller than a predetermined value.
  • the update amount of the base estimated value ⁇ W N ⁇ , k , the intensity estimated value ⁇ H N k, ⁇ , and the transfer characteristic estimated value ⁇ A ⁇ converge to a desired level.
  • the sound source separation unit 105 receives the observation signal x ⁇ , ⁇ and the filter G ⁇ , ⁇ as input, and uses the filter G ⁇ , ⁇ to at least estimate the speech component ⁇ a ⁇ ⁇ s ⁇ , ⁇ from the observation signal x ⁇ , ⁇ . ⁇ and the estimated noise component including coherent noise n ⁇ , ⁇ are separated.
  • the estimated value ⁇ a ⁇ ⁇ s ⁇ , ⁇ of the speech component and the estimated value ⁇ n ⁇ , ⁇ + ⁇ d ⁇ , ⁇ of the noise component are separated by the following equation (S105) and output.
  • the signal-to-noise ratio estimation unit 106 receives a speech component estimate value ⁇ a ⁇ ⁇ s ⁇ , ⁇ and a noise component estimate value ⁇ n ⁇ , ⁇ + ⁇ d ⁇ , ⁇ as inputs, and obtains a signal-to-noise ratio ( S106) and output.
  • S106 signal-to-noise ratio
  • sSNR is obtained by the following equation.
  • ⁇ Effect> With such a configuration, the speech component and noise component can be separated from the observation signal recorded by the microphone in the noisy environment, so the SN ratio in the utterance interval can be highly accurate even in the presence of non-stationary noise. Can be estimated. By using the obtained SN ratio estimated value, application to the following applications becomes possible.
  • ⁇ Comparison of noise suppression performance between microphones For example, by comparing the noise suppression performance of microphones by obtaining SNR estimates from observation signals recorded with two or more microphones with a noise cancellation function. it can.
  • ⁇ Comparison of speech recognition performance between speech recognition systems connected to microphones For example, an SN ratio estimate is obtained from observation signals recorded with microphones in a noisy environment, and speech recognition processing is performed with two or more speech recognition systems.
  • the speech recognition performance with respect to the SN ratio estimated value for each speech recognition system can be compared from the SN ratio estimated value and the speech recognition result.
  • ⁇ Comparison of microphone observation signal and user sensation recognition rate For example, the SN ratio estimated value is obtained from the observation signal recorded with the microphone in the noisy environment, and the user's sensation recognition rate for the observation signal is obtained. The ratio estimated value and the user's bodily sensation recognition rate can be compared.
  • Comparison of microphone observation signal and speech recognition engine recognition performance For example, each speech signal recognition engine performs speech recognition on two or more observation signals having different SN ratio estimates, thereby estimating each signal-to-noise ratio. The speech recognition performance of the speech recognition engine against the value can be compared.
  • the signal-to-noise ratio is used as the output of the apparatus, but the estimated value ⁇ a ⁇ ⁇ s ⁇ , ⁇ of the speech component that is the output value of the sound source separation unit 105 and the estimated noise component ⁇ n ⁇ , ⁇ + ⁇ d ⁇ , ⁇ may be output from the apparatus, and the signal-to-noise ratio estimation unit 106 may not be provided. In this case, it is called a sound source separation device. It can be said that the SN ratio estimation apparatus includes a sound source separation apparatus.
  • the sound source separation unit 105, the filter G omega, the observed signal x omega, tau by tau, an estimate of at least speech component ⁇ a ⁇ ⁇ s ⁇ , the estimate of tau and a noise component ⁇ n omega, tau + ⁇ d ⁇ , ⁇ is separated, but it is not always necessary to separate the diffusive noise d ⁇ , ⁇ from the observed signal when estimating the signal-to-noise ratio . Only ⁇ may be separated. In this case, the filter may be designed without taking diffuse noise into consideration.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server / BR> R computer in its own storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program.
  • a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the processing described above is executed by a so-called ASP (APPLICATION SERVICE PROVIDER) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
  • the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

従来よりも分離精度の高い音源分離技術装置を提供する。音源分離装置は、観測信号から拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、除去済信号をモデル化した確率分布と、伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、フィルタにより観測信号から、少なくとも第一音響信号と干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する。

Description

音源分離装置、その方法、およびプログラム
 本発明は、雑音環境下において、既知の音響信号をマイクロホンに与えた際(例えば、既知の音響信号を再生し、再生音をマイクロホンで収録した際)に得られた観測信号と、既知の音響信号から、観測信号に含まれる音声成分と雑音成分を分離する音源分離装置に関する。
 マイクロホンの音声認識性能を評価する場合、マイクロホンで収録した観測信号からSN比を推定し、SN比推定値と音声認識率の比較を行うものがある。例えば、SN比推定値の異なる2つ以上の観測信号に対して1台の音声認識装置で音声認識を行うことで、各SN比推定値に対するその音声認識装置の音声認識率を比較することができる。
 このような手法を利用することで、観測信号が人間にとって認識してほしいと感じるか否か、という推定ができ(例えば、SN比が高い観測信号であれば聞き取りやすく認識して欲しいと感じると推定できる)、ユーザー体感値に近い認識性能の評価が可能となる。言い換えると、SN比が高い(音声成分に対して雑音成分が少なく聞き取りやすい)と音声認識の認識精度が高くなり、SN比が低い(音声成分に対して雑音成分が多く聞き取りづらい)と音声認識の認識精度が低くなるという点を考慮した認識性能の評価が可能となる。
 上記のような性能評価のためのデータは、一般的に予め図示しない音声信号データベースを用意し、図1のようにスピーカ71から目的音stを再生し、スピーカ72から干渉性雑音ntを再生し、マイクロホン73で収録した観測信号xtを用い、SN比推定部74でSN比を推定する。なお、観測信号xtには拡散性雑音dtも含まれる。tは時刻を示すインデックスである。
 従来のSN比推定技術は、図2のように目的音(元の音響信号であり、源音源または源信号ともいう)stから得られる発話区間情報を参考に、発話区間(図2中のTs0~Ts1)から音声成分を、非発話区間(図2中のTn0~Tn1)から雑音成分を求める(非特許文献1参照)。
 しかし、非定常な雑音が存在すると、SN比の推定値とユーザー体感値(実感値)との間に差が生じる。例えば、図2Aを非定常な雑音が存在しない状態とし、図2Bでは非発話区間(図2中のTn0~Tn1)を含む区間に非定常な雑音が存在しSN比がユーザー体感値よりも低く推定され、図2Cでは発話区間(図2中のTs0~Ts1)を含む区間に非定常な雑音が存在しSN比がユーザー体感値よりも高く推定される。
 そこで、図3のように、音源分離部84において観測信号xtの音声成分と雑音成分とを分離し、SN比推定部85において分離した信号からSN比を推定する手法を提案する。ここでは、目的音sω,τ∈C(Cは複素数の全体の集合)と干渉性雑音nω,τ∈Cや拡散性雑音dω,τ∈Cが以下のように重畳した観測信号xω,τ∈Cから、観測信号xω,τに含まれる目的音由来の成分(音声成分)aωsω,τと、雑音由来の成分(雑音成分)nω,τ+dω,τを推定する問題を扱う。
xω,τ=aωsω,τ+nω,τ+dω,τ        (1)
ここで、xω,τ、sω,τ、nω,τ、dω,τはそれぞれ時間領域の信号xt、st、nt、dtを周波数領域の信号に変換したものであり、ω∈{1,…,Ω}とτ∈{1,…,Τ}は周波数と(フレーム)時間のインデックス、aωは目的音位置(目的音の発生位置)から観測位置までの伝達特性(伝達関数ともいう)である。以降、表記の簡単のために、|xω,τ|=Xω,τのように複素数の絶対値を各小文字に対応する大文字で表記する。特に断りのない限り、小文字の変数は複素数、大文字の変数は実数とする。拡散性雑音としては、空調の音などを含む背景雑音等の定常的な雑音が想定される。干渉性雑音としては、本来、収録対象としていない人の発話やTVの音声、突発的な物音等の非定常な雑音が想定される。
 観測信号xω,τから音声成分aωsω,τと雑音成分nω,τ+dω,τとを推定する代表的な手法に、非線形フィルタリングがある。この方法では、非線形フィルタを以下の式で設計し、
Figure JPOXMLDOC01-appb-M000006
各信号(成分)を以下のように推定する。
^aω^sω,τ=Gω,τxω,τ        (3)
^nω,τ+^dω,τ=(1-Gω,τ)xω,τ        (4)
 このように各信号(成分)を推定することで、例えば式(5)で定義されるような各時間フレームのSNRであるsSNR(segmental-SNR)を推定できる。
Figure JPOXMLDOC01-appb-M000007
 式(2)において、非線形フィルタGω,τを推定するためには、伝達特性Aω、目的音Sω,τ、干渉性雑音Nω,τ、拡散性雑音Dω,τを推定する必要がある。本問題設定では、目的音Sω,τは既知であると仮定しているため、観測信号Xω,τから伝達特性Aω、干渉性雑音Nω,τ、拡散性雑音Dω,τを推定することで、非線形フィルタGω,τ及びSNRの推定が可能である。
 上記の音源分離問題における従来手法の多くでは、振幅領域での各音源の瞬時混合、および伝達特性の振幅領域での乗法性を仮定している。今、上記の仮定が成り立つとすると、観測信号Xω,τは以下のように記述できる。
Xω,τ=AωSω,τ+Nω,τ+Dω,τ        (6)
このモデルの下で、各成分を推定する手法には様々なものがある。拡散性雑音Dω,τを推定する手法で代表的なものは、拡散性雑音Dω,τが定常雑音であると仮定し、観測信号Xω,τの期待値とすることである。
 しかし、この方法だけでは、雑音成分のうち拡散性雑音Dω,τしか推定できず、干渉性雑音Nω,τを推定することができない。干渉性雑音Nω,τを推定する方法として、半教師付非負値行列因子分解(NMF: non-negative matrix factorization)がある。半教師付NMFでは観測信号Xω,τに関して以下のようなモデルを置く。
Figure JPOXMLDOC01-appb-M000008
ここでWS ω,rとWN ω,kはそれぞれ、目的音と干渉性雑音の振幅スペクトルの基底、HS r,τとHN k,τはそれぞれ、目的音と干渉性雑音の振幅スペクトルの各基底に対応する強度(アクティベーション)であり、RとKはそれぞれの基底数である。本問題設定では、目的音Sω,τが既知であるため、基底WS ω,rと強度HS r,τを、目的音Sω,τ
Figure JPOXMLDOC01-appb-M000009
の間の一般化KL情報量などの目的関数を最小化するように学習し、次いで、観測信号Xω,τと式(7)の間の一般化KL情報量などの目的関数を最小化するように基底WN ω,kと強度HN k,τを学習する(非特許文献2参照)。
 しかしながら、式(7)では伝達特性Aωと拡散性雑音Dω,τを考慮していないため、観測信号Xω,τからの目的音由来の成分aωsω,τと雑音由来の成分nω,τ+dω,τの分離精度が低く、これを適用しただけではSNRを精緻に推定することは困難である。
 本発明は、従来よりも分離精度の高い音源分離技術装置を提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、音源分離装置は、スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する。観測信号は、所定の音響信号とスピーカとマイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、音源分離装置は、観測信号から拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、除去済信号をモデル化した確率分布と、伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、フィルタにより観測信号から、少なくとも第一音響信号と干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する。
 本発明によれば、従来よりも分離精度が高いという効果を奏する。さらに、分離した各成分を用いることで従来よりもSN比の推定精度が高いという効果を奏する。
SN比を推定する従来技術を説明するための図。 図2Aは非定常な雑音が存在しない状態を示す図、図2Bは非発話区間を含む区間に非定常な雑音が存在する状態を示す図、図2Cは発話区間を含む区間に非定常な雑音が存在する状態を示す図。 SN比を推定する従来技術を説明するための図。 第一実施形態に係るSN比推定装置の機能ブロック図。 第一実施形態に係るSN比推定装置の処理フローの例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。また、テキスト中で使用する記号「_」等は、本来直後の文字の真下に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 本実施形態では、半教師付NMFを拡張することで、観測信号Xω,τから、伝達特性Aω、干渉性雑音Nω,τ、拡散性雑音Dω,τを推定し、SN比を推定する手法を提供する。本実施形態のポイントは、
・半教師付NMFを、式(1)や式(6)のような実環境における観測モデルに適応するための拡散性雑音を事前に推定して観測信号から除去し、
・除去後の信号に基づき確率モデル化された半教師付NMF(非特許文献2参照)に伝達特性Aωに関する項を組み込み、事後確率最大化(MAP: maximum-a-posteriori)推定に基づく最適化を行うアルゴリズムを提供することである。このような構成により、実環境においても観測信号から目的音由来成分と雑音由来成分を高精度に分離し、SN比を推定することができる。
 まず、観測信号をどのようにモデル化にするかについて説明する。
<観測信号のモデル化>
 式(6)に即して観測信号をモデル化するために、まず、観測信号Xω,τを以下のように近似する。
Figure JPOXMLDOC01-appb-M000010
ここで拡散性雑音Dω,τの推定に関する既存技術を拡張し、拡散性雑音Dω,τが、ある一定の時間フレームの間では定常雑音であると仮定する。また目的音Sω,τと干渉性雑音Nω,τが時間的に疎な信号であると仮定することで、拡散性雑音Dω,τを以下のように推定する。
^Dω,τ←Υ・min[Xω,τ-F_wd,Xω,τ-F_wd+1,…,Xω,τ+B_wd]        (8)
ここでF_wdとB_wdはDω,τが定常的である時間フレーム数を規定するパラメータであり、チューニングにより求めることができる。例えば、それぞれ20程度に設定すればよい。また、Υは所定の値である。すると、拡散性雑音Dω,τを除去した観測信号(以下、「除去済信号」ともいう)Yω,τは以下のように記述することができる。
Figure JPOXMLDOC01-appb-M000011
ここで目的音の振幅スペクトルの基底WS ω,rと強度HS r,τは、従来の半教師付NMFの枠組み(非特許文献2参照)を利用することで推定できる。以降では、除去済信号Yω,τから、干渉性雑音の振幅スペクトルの基底WN ω,kと強度HN k,τおよび伝達特性Aωを推定する手法を述べる。なお、WS ω,r、HS r,τ、WN ω,k、HN k,τ、Aωの推定値をそれぞれ^WS ω,r、^HS r,τ、^WN ω,k、^HN k,τ、^Aωと表記する。
 伝達特性Aωは元々物理的なパラメータであり、部屋の形状や、観測環境などの音響的な事前知識を組み込むことで、推定精度の向上が見込まれる。これを実現するために、本実施形態では、各パラメータをMAP推定で推定する。具体的には、除去済信号Yω,τに関する尤度関数p(_A,_N|_S,_Y)と、伝達特性Aωに関する事前分布p(_A|_α)を設計し、以下の式(11)の同時確率Lを最大化するように各パラメータ_A、_N、_αを推定する。
L=p(_A,_N|_S,_Y)p(_A|_α)        (11)
_A:=[^Aω]∈RΩ
_N:=[^Nω,τ]∈RΩ×Τ
_S:=[Sω,τ]∈RΩ×Τ
_Y:=[Yω,τ]∈RΩ×Τ
_α:=[αω]∈RΩ
_αは伝達特性^Aωに関する事前分布をモデル化する際に用いられるパラメータの集合である。ここで尤度関数には、一般化KL情報量を確率的に解釈した確率分布である、ポアソン分布を適用する。また伝達特性Aωに関しても、伝達特性Aωは非負の変数であるため、ポアソン分布を適用する。すると各分布は以下のように記述できる。
Figure JPOXMLDOC01-appb-M000012
ここで各分布は指数分布族であるため、同時確率Lの最大化は、両辺に対数をとった対数同時分布を最大化する方が、数値計算上効率的である。ここで各分布に対数をとると、以下のように記述できる。
Figure JPOXMLDOC01-appb-M000013
ゆえに最大化すべき目的関数は
Figure JPOXMLDOC01-appb-M000014
となる。この目的関数J(Θ)を最大化することは、同時確率Lを最大化することを意味する。
<更新式の導出>
 式(18)を最大化するように基底の推定値^WN ω,k、強度の推定値^HN k,τおよび伝達特性の推定値^Aωを推定するアルゴリズムを述べる。式(18)を直接最大化することは困難なため、本実施形態では補助関数法を利用した更新アルゴリズムを述べる。また、問題の簡単のために、R=Kとする。いま対数和の不等式より、λr,ω,τ≧0かつ
Figure JPOXMLDOC01-appb-M000015
とすると、以下の不等式が成り立つ。
Figure JPOXMLDOC01-appb-M000016
すると目的関数J(Θ)は、以下のJ'(Θ)で下から抑えることができる。
Figure JPOXMLDOC01-appb-M000017
補助関数法によれば、まずJ'(Θ)をλr,ω,τに関して最大化し、そのλr,ω,τの下で各変数を最大化する処理を繰り返すことで、目的関数J(Θ)を単調増加するようにパラメータを推定できる。補助関数法に基づく更新アルゴリズムは以下のようになる。
Figure JPOXMLDOC01-appb-M000018
なお、行列計算ライブラリを用いて計算する際は、上記アルゴリズムの近似として、式(22)(23)を以下のような更新則に変更してもよい。
Figure JPOXMLDOC01-appb-M000019
また、Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算を表す。また_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τである。
 また_Z(S)と_H(S)を更新させないために、各更新毎に_Z(S)と_H(S)を事前学習した値へと置き換える。
<第一実施形態に係るSN比推定装置>
 図4は第一実施形態に係るSN比推定装置の機能ブロック図を、図5はその処理フローの例を示す。
 SN比推定装置100は、初期化部102、拡散性雑音除去部103と、フィルタ設計部104と、音源分離部105と、信号対雑音比推定部106とを含む。
 SN比推定装置100は、スピーカ71で再生する時間領域の目的音stを周波数領域の信号に変換した目的音sω,τ、マイクロホン73で収録した時間領域の観測信号xtを周波数領域の信号に変換した観測信号xω,τ、各種パラメータを入力とする。ここでいう各種パラメータとは、例えば、式(8)のΥ、基底R,K(例えば、R=K=10程度に設定できる)、伝達特性の推定値^Aの初期値(例えば、^Aω=1)等である。なお、本実施形態では、周波数領域の目的音sω,τ、観測信号xω,τが入力されるものとして説明しているが、時間領域の目的音st、観測信号xtが入力される構成としてもよい。ただし、tは時刻のインデックスである。この場合、SN比推定装置100において、周波数領域の信号に変換する処理を行う。例えば、周波数変換には高速フーリエ変換などを利用すればよく、フーリエ変換長は256点、シフト点数は128点などにすればよい。
 SN比推定装置100は、目的音sω,τ、観測信号xω,τを利用して、観測信号xω,τに含まれる音声成分と雑音成分とを分離して信号対雑音比を求め、出力する。
 SN比推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。SN比推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。SN比推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。SN比推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。SN比推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしもSN比推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、SN比推定装置の外部に備える構成としてもよい。
 以下、各部について説明する。
<初期化部102>
 初期化部102は、目的音sω,τと観測信号xω,τと各種パラメータとを入力とする。
 初期化部102は、観測信号xω,τとΥとを用いて、式(8)により、拡散性雑音Dω,τを推定し、推定値^Dω,τを出力する。
^Dω,τ←Υ・min[Xω,τ-F_wd,Xω,τ-F_wd+1,…,Xω,τ+B_wd]        (8)
 初期化部102は、例えば、目的音sω,τと基底数Rを用いて、一般化KL情報量最小化などに基づく既存のNMFの枠組み(非特許文献2参照)で、基底の推定値^WS ω,rと強度の推定値^HS r,τとを求め、出力する。例えば、目的音Sω,τが既知であるため、基底の推定値^WS ω,rと強度の推定値^HS r,τを、目的音Sω,τ
Figure JPOXMLDOC01-appb-M000020
の間の一般化KL情報量などの目的関数を最小化するように学習する(非特許文献2参照)。また、基底の推定値^WN ω,kと強度の推定値^HN k,τは非負の乱数などで初期化する。
 初期化部102は、例えば、上述の方法により、推定値^Dω,τ、基底の推定値^WS ω,r、強度の推定値^HS r,τ、基底の推定値^WN ω,k、強度の推定値^HN k,τの初期値を求め(S102)、出力する。なお、伝達特性の推定値^Aω,k、基底の推定値^WN ω,k、強度の推定値^HN k,τは本実施形態において繰り返し更新される値だが、推定値^Dω,τ、基底の推定値^WS ω,r、強度の推定値^HS r,τは1つの利用環境に対して一度設定すれば初期値をそのまま利用してもよい。
<拡散性雑音除去部103>
 拡散性雑音除去部103は、観測信号xω,τと拡散性雑音Dω,τの推定値^Dω,τとを入力とし、式(9)により観測信号xω,τから拡散性雑音Dω,τの推定値を除去し、除去済信号Yω,τを求め(S103)、出力する。
Figure JPOXMLDOC01-appb-M000021
<フィルタ設計部104>
 フィルタ設計部104は、基底の推定値^WS ω,r、強度の推定値^HS r,τ、基底の推定値^WN ω,k及び強度の推定値^HN k,τの初期値、並びに、除去済信号Yω,τ、拡散性雑音Dω,τの推定値^Dω,τ、観測信号xω,τ、基底数K,Rを含む各種パラメータを入力とする。フィルタ設計部104は、除去済信号Yω,τをモデル化した確率分布と、伝達特性Aωをモデル化した確率分布と、を組み合わせることで非線形フィルタGω,τを得(S104)、出力する。例えば、除去済信号Yω,τに関する尤度関数p(_A,_N|_S,_Y)と、伝達特性Aωに関する事前分布p(_A|_α)とを組み合わせた式(11)の同時確率Lを最大化するように各パラメータ_A、_N、_αを推定する。
L=p(_A,_N|_S,_Y)p(_A|_α)        (11)
 この処理は、次の目的関数J(Θ)を最大化するように各パラメータ(基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aω)を推定する処理に相当する。
Figure JPOXMLDOC01-appb-M000022
 例えば、式(21)~(24)または式(21),(25),(26),(24)により、基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aωを更新する(S104-1)ことが同時確率Lを最大化し、各パラメータ_A、_N、_αを推定することを意味する。
Figure JPOXMLDOC01-appb-M000023
Figure JPOXMLDOC01-appb-M000024
ただし、_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τであり、式(21),(25),(26),(24)により更新する場合には、_Z(S)と_H(S)を更新させないために、各更新毎に_Z(S)と_H(S)を事前学習した値へと置き換える。
 フィルタ設計部104は、所定の条件を満たす場合に(S104-2)、更新を終了し、終了時の基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aωを用いて、次式で表される非線形フィルタGω,τを求め(S104-3)、出力する。
Figure JPOXMLDOC01-appb-M000025
 フィルタ設計部104は、所定の条件を満たすまで更新処理S104-1を繰り返す。所定の条件としては、(i)S104-1を所定回数(例えば100回)繰り返すこと、(ii)更新量が所定の値よりも小さくなること等が考えられる。要は、基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aωの更新量が所望のレベルまで収束すればよい。
<音源分離部105>
 音源分離部105は、観測信号xω,τとフィルタGω,τとを入力とし、フィルタGω,τにより観測信号xω,τから、少なくとも音声成分の推定値^aω^sω,τと干渉性雑音nω,τを含む雑音成分の推定値とを分離する。例えば、次式により音声成分の推定値^aω^sω,τと雑音成分の推定値^nω,τ+^dω,τとを分離し(S105)、出力する。
^aω^sω,τ=Gω,τxω,τ        (3)
^nω,τ+^dω,τ=(1-Gω,τ)xω,τ        (4)
<信号対雑音比推定部106>
 信号対雑音比推定部106は、音声成分の推定値^aω^sω,τと雑音成分の推定値^nω,τ+^dω,τを入力とし、信号対雑音比を求め(S106)、出力する。例えば、次式によりsSNRを求める。
Figure JPOXMLDOC01-appb-M000026
<効果>
 このような構成により、雑音環境下の発話をマイクロホンで収録した観測信号から、音声成分と雑音成分を分離できるため、非定常な雑音が存在する環境でも、発話区間内のSN比を高精度に推定することができる。得られたSN比推定値を用いることで、以下のようなアプリケーションへの応用が可能となる。
・マイクロホン間の雑音抑圧性能の比較:例えば、雑音環境下の発話を2台以上のノイズキャンセル機能付きのマイクロホンで収録した観測信号からSN比推定値を求めることで、マイクロホンの雑音抑圧性能を比較できる。
・マイクロホンが接続する音声認識システム間の音声認識性能の比較:例えば、雑音環境下の発話をマイクロホンで収録した観測信号からSN比推定値を求めるとともに、2台以上の音声認識システムで音声認識処理を行い、SN比推定値と音声認識結果から、音声認識システム毎のSN比推定値に対する音声認識性能を比較できる。
・マイクロホンの観測信号とユーザー体感認識率との比較:例えば、雑音環境下の発話をマイクロホンで収録した観測信号からSN比推定値を求めるとともに、その観測信号に対するユーザの体感認識率を求め、SN比推定値とユーザの体感認識率とを比較できる。
・マイクロホンの観測信号と音声認識エンジンの認識性能との比較:例えば、SN比推定値の異なる2つ以上の観測信号に対して1つの音声認識エンジンで音声認識を行うことで、各SN比推定値に対するその音声認識エンジンの音声認識性能を比較できる。
<変形例>
 本実施形態では、信号対雑音比を装置の出力としているが、音源分離部105の出力値である音声成分の推定値^aω^sω,τと雑音成分推定値^nω,τ+^dω,τとを装置の出力とし、信号対雑音比推定部106を設けない構成としてもよい。この場合、音源分離装置という。なお、SN比推定装置は、音源分離装置を含んでいるとも言える。
 本実施形態では、音源分離部105において、フィルタGω,τにより観測信号xω,τから、少なくとも音声成分の推定値^aω^sω,τと雑音成分の推定値^nω,τ+^dω,τとを分離しているが、SN比を推定する際に必ずしも観測信号から拡散性雑音dω,τを分離する必要はないため、雑音成分の推定値として^nω,τのみを分離してもよい。なお、この場合、拡散性雑音を考慮せずにフィルタを設計すればよい。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバ・BR>Rンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(APPLICATION SERVICE PROVIDER)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1.  スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する音源分離装置であって、
     前記観測信号は、前記所定の音響信号と前記スピーカと前記マイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、
     前記観測信号から前記拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、
     前記除去済信号をモデル化した確率分布と、前記伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、
     前記フィルタにより前記観測信号から、少なくとも前記第一音響信号と前記干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する、
     音源分離装置。
  2.  請求項1の音源分離装置であって、
     ω={1,2,…,Ω}とτ={1,2,…,Τ}をそれぞれ周波数と時間のインデックスとし、前記伝達関数の推定値を^Aωとし、前記干渉性雑音音響信号の推定値を^Nω,τとし、前記所定の音響信号をSω,τとし、前記除去済信号をYω,τとし、_A:=[^Aω]∈RΩ、_N:=[^Nω,τ]∈RΩ×Τ、_S:=[Sω,τ]∈RΩ×Τ、_Y:=[Yω,τ]∈RΩ×Τ、_α:=[αω]∈RΩとし、前記除去済信号をモデル化した確率分布は前記除去済信号に関する尤度関数p(_A_N|_S,_Y)であり、前記伝達関数をモデル化した確率分布は前記伝達関数に関する事前分布p(_A|_α)であり、前記フィルタ設計部は、同時確率L=p(_A,_N|_S,_Y)p(_A|_α) を最大化するようにパラメータを推定し、推定したパラメータから前記フィルタを得る、
     音源分離装置。
  3.  請求項2の音源分離装置であって、
     前記観測信号をXω,τとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底の推定値をそれぞれ^Wω,r Sと^Wω,k Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底に対応する強度の推定値をそれぞれ^Hr,τ Sと^Hk,τ Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底数をそれぞれRとKとし、
     前記フィルタ設計部は、
    Figure JPOXMLDOC01-appb-M000001
    により、
     または、
     Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算であり、_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τとし、
    Figure JPOXMLDOC01-appb-M000002
    により、λr,ω,τ、^Wω,τ N、^Hω,τ N、^Aωを更新することで、前記同時確率の最大化するようにパラメータを推定する、
     音源分離装置。
  4.  請求項3の音源分離装置であって、
     前記拡散性雑音音響信号の推定値を^Dω,τとし、前記フィルタ設計部は、所定の条件を満たすまで更新処理を繰り返し、更新終了時のパラメータを用いて、前記フィルタを
    Figure JPOXMLDOC01-appb-M000003
    として得る、
     音源分離装置。
  5.  スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する音源分離方法であって、
     前記観測信号は、前記所定の音響信号と前記スピーカと前記マイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、
     前記観測信号から前記拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去ステップと、
     前記除去済信号をモデル化した確率分布と、前記伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計ステップと、
     前記フィルタにより前記観測信号から、少なくとも前記第一音響信号と前記干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離ステップと、を有する、
     音源分離方法。
  6.  請求項5の音源分離方法であって、
     ω={1,2,…,Ω}とτ={1,2,…,Τ}をそれぞれ周波数と時間のインデックスとし、前記伝達関数の推定値を^Aωとし、前記干渉性雑音音響信号の推定値を^Nω,τとし、前記所定の音響信号をSω,τとし、前記除去済信号をYω,τとし、_A:=[^Aω]∈RΩ、_N:=[^Nω,τ]∈RΩ×Τ、_S:=[Sω,τ]∈RΩ×Τ、_Y:=[Yω,τ]∈RΩ×Τ、_α:=[αω]∈RΩとし、前記除去済信号をモデル化した確率分布は前記除去済信号に関する尤度関数p(_A_N|_S,_Y)であり、前記伝達関数をモデル化した確率分布は前記伝達関数に関する事前分布p(_A|_α)であり、前記フィルタ設計ステップは、同時確率L=p(_A,_N|_S,_Y)p(_A|_α) を最大化するようにパラメータを推定し、推定したパラメータから前記フィルタを得る、
     音源分離方法。
  7.  請求項6の音源分離方法であって、
     前記観測信号をXω,τとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底の推定値をそれぞれ^Wω,r Sと^Wω,k Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底に対応する強度の推定値をそれぞれ^Hr,τ Sと^Hk,τ Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底数をそれぞれRとKとし、
     前記フィルタ設計ステップは、
    Figure JPOXMLDOC01-appb-M000004
    により、
     または、
     Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算であり、_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τとし、
    Figure JPOXMLDOC01-appb-M000005
    により、λr,ω,τ、^Wω,τ N、^Hω,τ N、^Aωを更新することで、前記同時確率の最大化するようにパラメータを推定する、
     音源分離方法。
  8.  請求項1から請求項4の何れかの音源分離装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/014817 2018-04-24 2019-04-03 音源分離装置、その方法、およびプログラム WO2019208137A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-083097 2018-04-24
JP2018083097A JP2019193073A (ja) 2018-04-24 2018-04-24 音源分離装置、その方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2019208137A1 true WO2019208137A1 (ja) 2019-10-31

Family

ID=68294007

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/014817 WO2019208137A1 (ja) 2018-04-24 2019-04-03 音源分離装置、その方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2019193073A (ja)
WO (1) WO2019208137A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215544A (ja) * 2013-04-26 2014-11-17 ヤマハ株式会社 音響処理装置
WO2015129760A1 (ja) * 2014-02-28 2015-09-03 日本電信電話株式会社 信号処理装置、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215544A (ja) * 2013-04-26 2014-11-17 ヤマハ株式会社 音響処理装置
WO2015129760A1 (ja) * 2014-02-28 2015-09-03 日本電信電話株式会社 信号処理装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2019193073A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
US10262680B2 (en) Variable sound decomposition masks
JP2019078864A (ja) 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
US9318106B2 (en) Joint sound model generation techniques
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP5172536B2 (ja) 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
JP7024615B2 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
WO2020121860A1 (ja) 音響信号処理装置、その方法、およびプログラム
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
WO2021144934A1 (ja) 音声強調装置、学習装置、それらの方法、およびプログラム
JP7021437B2 (ja) 学習データ生成装置、学習データ生成方法、及びプログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19793453

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19793453

Country of ref document: EP

Kind code of ref document: A1