WO2012023268A1 - 多マイクロホン話者分類装置、方法およびプログラム - Google Patents

多マイクロホン話者分類装置、方法およびプログラム Download PDF

Info

Publication number
WO2012023268A1
WO2012023268A1 PCT/JP2011/004552 JP2011004552W WO2012023268A1 WO 2012023268 A1 WO2012023268 A1 WO 2012023268A1 JP 2011004552 W JP2011004552 W JP 2011004552W WO 2012023268 A1 WO2012023268 A1 WO 2012023268A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
sound
microphone
input signal
signal
Prior art date
Application number
PCT/JP2011/004552
Other languages
English (en)
French (fr)
Inventor
祥史 大西
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2012023268A1 publication Critical patent/WO2012023268A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to a multi-microphone speaker classification apparatus, a multi-microphone speaker classification method, and a multi-microphone speaker classification program for classifying speakers using audio signals collected by a plurality of microphones.
  • Multi-microphone speaker classification refers to the case where voice signals emitted from multiple sound sources (for example, voice signals uttered by multiple speakers) are collected by multiple microphones and each section of the audio signal is It means to classify by each.
  • Patent Document 1 describes a determination device that determines the speech period of each speaker from the speech signals of multiple speakers within the same sound period collected by a plurality of microphones.
  • the determination apparatus described in Patent Document 1 classifies observation signals collected by M microphones as noise or speech by each speaker, and speaks from the observation signals classified as speech by each speaker. Judge the person.
  • FIG. 3 is a block diagram showing an outline of the determination apparatus described in Patent Document 1.
  • the determination apparatus shown in FIG. 3 includes a frequency domain conversion unit 1 and an observation signal classification unit 3 and operates as follows.
  • the observation signal classification unit 3 classifies the observation signal x m (f, t) in the frequency domain based on information indicating the volume ratio at which a certain speaker's utterance is observed in each microphone. Specifically, the observation signal classifying unit 3 normalizes the frequency domain observation signal x m (f, t) according to the following equation 2 and determines how much sound volume is collected by each microphone. Ask for information to represent.
  • the observed signal classification unit 3 divides the absolute value of each observed signal x m (f, t) in the frequency domain by the norm of the observed signal vector in the frequency domain. Then, the observation signal classifying unit 3 obtains the normalized frequency domain observation signal x ′ m (f, t) for each time frequency.
  • a vector having the observation signal x ′ m (f, t) as a component is defined as X ′ (f, t).
  • This X ′ (f, t) is a normalized frequency domain signal.
  • X ′ (f, t) means an absolute value of a frequency domain signal calculated as a volume ratio between microphones for each frequency f of interest.
  • observation signal classification unit 3 clusters X ′ (f, t).
  • N speakers there are N speakers and M microphones are arranged near the speakers.
  • the volume ratio of signals collected by M microphones is expected to form N clusters.
  • the likelihood pn is And is calculated using Equation 3 shown below.
  • the observation signal classification unit 3 outputs a classification result by obtaining a model having the highest likelihood when the likelihood is calculated using the information of the input signal for this model.
  • model is updated by updating the mean vector and the covariance matrix using the input signal estimated by the speaker.
  • Non-Patent Document 1 describes another example of clustering X ′ (f, t).
  • the normalized feature quantity X ′ (f, t) is clustered on the M-dimensional space using the k-means method, and each cluster is estimated as a sound source speaker. To do.
  • the k-means method In clustering by the k-means method, first, a predetermined number of clusters or a smaller number of cluster centers are given. Next, the cluster to which each data belongs is determined on the assumption that each data of the target data set belongs to the cluster at the cluster center that exists closest. When the data belonging to each cluster is determined, the cluster center is determined within the cluster, and the process of determining again the data belonging to the cluster that has become the cluster center is repeated. This iterative process is performed until the cluster remains unchanged. When the number of initial cluster centers is smaller than the predetermined number of clusters, the number of clusters is increased by dividing the cluster center into a plurality of parts during the iterative process. This is repeated until the number of clusters reaches a predetermined number.
  • the sound sources are classified by clustering the volume ratios (X ′ (f, t)) of signals collected by a plurality of sensors (microphones) as feature quantities, and the speakers are classified.
  • the normalized feature quantity X ′ (f, t) of the M-dimensional vector calculated by the determination device described in Patent Document 1 is constrained on the M-dimensional hypersphere.
  • the feature amount X ′ (f, t) is normalized by the norm of the observed signal X (f, t). Therefore, for example, when the sensitivity of one microphone is high, vector values concentrate on one-dimensional components corresponding to the microphone with high sensitivity. Therefore, it is difficult to perform clustering with sufficient accuracy, and speaker classification performance is degraded.
  • the present invention provides the number of speakers even when different types of microphones are used or when the sensitivity of the microphones is not adjusted, that is, when calibration is not performed between a plurality of microphones. It is an object of the present invention to provide a multi-microphone speaker classification apparatus, a multi-microphone speaker classification method, and a multi-microphone speaker classification program that can appropriately perform estimation and speaker classification.
  • the multi-microphone speaker classification device determines the number of sound sources and the direction of sound sources based on a vector whose component is an input signal obtained by converting speech from each sound source collected by a plurality of microphones into a time-frequency domain. Based on the first estimation means to estimate, the number of sound sources and the sound source direction estimated by the first estimation means, the nearest sound source of each microphone is specified, and input to each microphone based on the audio signal emitted from the sound source Calculates the volume, calibrates the input signal so that the volume is uniform, and estimates the number of sound sources and the direction of the sound source based on the calibrated input signal, and based on the estimated sound source direction And a second estimating means for classifying the speakers.
  • the number of sound sources and the direction of sound sources are determined based on a vector whose component is an input signal obtained by converting the sound from each sound source collected by a plurality of microphones into the time-frequency domain.
  • the nearest sound source of each microphone is identified, and the sound volume input to each microphone is calculated based on the audio signal emitted from the nearest sound source of each microphone.
  • the input signal is calibrated so that the volume is uniform, the number of sound sources and the direction of the sound source are estimated based on the calibrated input signal, and the speakers are classified based on the estimated sound source direction.
  • the multi-microphone speaker classification program allows a computer to calculate the number of sound sources of a sound source based on a vector whose component is an input signal obtained by converting sound from each sound source collected by a plurality of microphones into a time-frequency domain.
  • the first estimation process for estimating the sound source direction the nearest sound source of each microphone is identified based on the number of sound sources and the sound source direction estimated in the first estimation process, and each microphone is based on the sound signal emitted from the sound source. Is calculated, and the number of sound sources and the direction of the sound source are estimated based on the signal calibration process for calibrating the input signal so that the sound volume is uniform, and the calibrated input signal.
  • performing a second estimation process for classifying speakers based on the sound source direction is performed.
  • the present invention it is possible to appropriately estimate the number of speakers and classify speakers even when calibration is not performed between a plurality of microphones.
  • FIG. 1 is a block diagram illustrating an embodiment of a multi-microphone speaker classification device according to the present invention.
  • FIG. It is a block diagram which shows the example of the minimum structure of the multi-microphone speaker classification
  • FIG. 1 is a block diagram showing an embodiment of a multi-microphone speaker classification apparatus according to the present invention.
  • the multi-microphone speaker classification device 100 according to the present embodiment can be realized by hardware, software, and a combination thereof.
  • multi-microphone speaker classification apparatus 100 is realized by an information processing apparatus such as a computer that operates according to a program.
  • the multi-microphone speaker classification apparatus 100 includes a multi-microphone sound input unit 101 (hereinafter referred to as a multi-microphone sound input unit 101), a frequency domain conversion unit 102, a first estimation unit 103, a signal calibration unit 104, The second estimation unit 105, the classification result output control unit 106, and the output unit 107 are provided.
  • the multi-microphone sound input unit 101 receives sound collected from a plurality of microphones.
  • the multi-microphone audio input unit 101 digitizes the input audio and inputs an audio signal for each channel of each microphone to the frequency domain conversion unit 102.
  • the multi-microphone audio input unit 101 may receive an audio signal that has already been digitized and recorded via a network or a file, and digitize the received audio signal.
  • the classification result output control unit 106 causes the output unit 107 to output the result of classifying the speakers.
  • the output unit 107 is realized by a display device, for example. In this case, the classification result output control unit 106 causes the output unit 107 to display the result of classifying the speakers.
  • the output unit 107 is not limited to a display device.
  • the output unit 107 may be, for example, a printer.
  • the frequency domain conversion unit 102 converts the audio signal digitized by the multi-microphone audio input unit 101 into a signal in the time frequency domain. Specifically, the frequency domain transform unit 102 transforms a digitized audio signal into a time-frequency domain signal by performing a short-time Fourier transform.
  • a signal obtained by converting the audio signal x m (t) into the time frequency domain is represented as x m (f, t).
  • f is a frequency.
  • An M-dimensional vector in which M signals converted to the time-frequency domain are arranged as a column is represented as X (f, t). That is, X (f, t) is a signal in the time frequency domain and is expressed by the following equation 4.
  • the first estimation unit 103 estimates the number of sound sources and the sound source direction based on the time-frequency domain signal X (f, t) calculated by the frequency domain transform unit 102. First, the first estimation unit 103 normalizes the absolute value of each vector component in the time-frequency domain signal X (f, t) calculated by the frequency domain transform unit 102 with the norm of X (f, t). The quantity X ′ (f, t) is calculated. X ′ (f, t) is expressed by the following formula 5. As described above, the feature amount X ′ (f, t) can be said to be a volume ratio between microphones.
  • the first estimation unit 103 estimates the number of sound sources and the sound source direction from X ′ (f, t), and develops the estimated sound source direction as a base vector.
  • the number of sound sources and the sound source direction estimated by the first estimation unit 103 are referred to as the number of sound sources and the sound source direction in the first stage.
  • the coefficient when the estimated number of sound sources is L
  • the M-dimensional sound source direction vector of each sound source is ⁇ i (f)
  • the sound source direction vector ⁇ i (f) is a base vector is a i (f, t).
  • X ′ (f, t) can be expressed as shown in Equation 6.
  • the first estimation unit 103 estimates the number of sound sources and the sound source direction by calculating the estimated number L of sound sources, the M-dimensional sound source direction vector ⁇ i (f), and the coefficient a i (f, t). These calculation methods will be described later.
  • the signal calibration unit 104 calibrates the sensitivity of the microphone based on the information on the number of sound sources and the sound source direction estimated by the first estimation unit 103. Specifically, the signal calibration unit 104 calculates the volume based on the audio signal emitted from the nearest sound source of each microphone, and calibrates the input signal so that the calculated volume is uniform. For example, the signal calibration unit 104 performs adjustment so that the average value of signals observed from the nearest sound source becomes the same level in each microphone. This will be described in detail below.
  • the signal calibration unit 104 identifies the nearest sound source of each microphone.
  • the nearest sound source microphone m and j m (f) the function of specifying the sound source j m (f) can be expressed as Equation 7 below.
  • ⁇ im (f) represents the m-th component of the vector ⁇ i (f). That is, j m (f) is selected as the sound source i having the largest m-th component ⁇ im (f) of the sound source direction vector. Selecting the largest sound source direction vector ⁇ im (f) has the meaning of selecting the sound source closest to the microphone m among the L sound sources ⁇ i (f). As described above, the signal calibration unit 104 compares the m-th component among the L sound source vectors and selects the largest sound source j m (f), thereby identifying the nearest sound source of each microphone.
  • the signal calibration unit 104 estimates whether or not the frequency f of the signal at time t is output from the sound source j m (f).
  • a value indicating whether or not the frequency component f of the signal at time t is output from the sound source j m (f) is ⁇ jm (f) (t)
  • ⁇ jm (f) (t) is It is defined as shown in Equation 8.
  • Expression 8 is a function for determining that the sound source i having the largest coefficient when the sound source direction is a base vector is the sound source j m (f). Selecting the sound source with the largest coefficient can be said to be estimating whether the sound is from one of the estimated sound source directions of the signal.
  • Expression 8 is a function that becomes 1 when the frequency component f of the signal at time t is estimated to be output from the sound source j m (f), and 0 otherwise.
  • the signal calibration unit 104 estimates whether or not the frequency f of the signal at time t is output from the sound source j m (f) using Expression 8.
  • the signal calibration unit 104 calculates an average value of absolute values of signals observed from the nearest sound source j m (f) of the microphone m.
  • the signal calibration unit 104 calculates an average value r m (f) of absolute values of observation signals from the nearest sound source j m (f) of the microphone m using, for example, Expression 9 shown below.
  • the signal calibration unit 104 adjusts the signal x m (f, t) using the calculated average value r m (f) so that the volume of each microphone becomes the same level. Specifically, the signal calibration unit 104 calculates a signal y m (f, t) obtained by adjusting the signal x m (f, t) using Expression 10 shown below.
  • the average value r m (f) calculated by Equation 9 is an amount indicating the volume from the nearest sound source of each microphone. Therefore, by dividing the signal x m (f, t) to each microphone by the average value r m (f) calculated for each microphone, a signal adjusted so that the volume of each microphone becomes the same level is obtained. Will be obtained.
  • the M-dimensional vector is represented as Y (f, t) by arranging the adjusted M signals as a column. That is, Y (f, t) is expressed by the following formula 11.
  • the signal calibration unit 104 calculates Y ′ (f, t) obtained by normalizing the absolute value of each vector component in the signal Y (f, t) with the norm of Y (f, t).
  • Y ′ (f, t) is represented by Expression 12 shown below.
  • the signal calibration unit 104 calculates the average value of the observed signal square, which is the sound power, instead of the average value r m (f) of the absolute value of the observed signal, and uses this average value to calculate the signal x m (f , T) may be calibrated.
  • the signal calibration unit 104 selects the sound source closest to each microphone based on the estimated sound source direction using Equation 7 and Equation 8, and the volume indicated by the input signal input from the selected sound source. Is calculated for each microphone using Equation 9 (for example, r m (f)). Then, the signal calibration unit 104 uses the average value to calibrate the input signal x m (f, t) according to Equation 10, thereby making the volume of the input signal input to each microphone uniform.
  • the second estimation unit 105 estimates the number of sound sources and the sound source direction based on the signal Y ′ (f, t) calculated by the signal calibration unit 104, and classifies the speakers based on the estimated sound source direction.
  • the number of sound sources and the sound source direction estimated by the second estimation unit 105 are referred to as a second-stage sound source number and a sound source direction.
  • the estimated number of sound sources is K
  • the M-dimensional sound source direction vector of each sound source is ⁇ i (f)
  • the coefficient when the sound source direction is a base vector is b i (f, t)
  • Equation 13 Equation 13
  • the second estimation unit 105 estimates the number of sound sources and the sound source direction vector by calculating the estimated number K of sound sources, the M-dimensional sound source direction vector ⁇ i (f), and the coefficient b i (f, t).
  • the second estimation unit 105 calculates the sound source direction c (f, t) using the following equation 14.
  • the speakers are classified by calculating the sound source direction c (f, t).
  • the frequency domain transform unit 102, the first estimation unit 103, the signal calibration unit 104, the second estimation unit 105, and the classification result output control unit 106 operate according to a program (multi-microphone speaker classification program). This is realized by the CPU of the computer.
  • the program is stored in the storage unit of the multi-microphone speaker classification apparatus 100, and the CPU reads the program, and in accordance with the program, the frequency domain conversion unit 102, the first estimation unit 103, the signal calibration unit 104, and the second estimation Unit 105 and classification result output control unit 106 may operate.
  • the frequency domain transform unit 102, the first estimation unit 103, the signal calibration unit 104, the second estimation unit 105, and the classification result output control unit 106 may be realized by dedicated hardware, respectively. Good.
  • the first estimation unit 103 and the second estimation unit 105 estimate the number of sound sources and the sound source direction in the first stage and the second stage.
  • the method of estimating the number of sound sources and the sound source direction in the first stage and the second stage may be the same or different between the first estimation unit 103 and the second estimation unit 105.
  • the case where the first estimation unit 103 estimates the number of sound sources and the sound source direction will be described.
  • the first estimation unit 103 calculates the coefficient a i (f, t), the basis ⁇ i (f), and the number of sound sources L that minimize the function F defined by Expression 15 shown below.
  • a method for estimating the number of sound sources and the sound source direction in the first stage will be described.
  • x in Equation 15 is read as y, a as b, ⁇ as ⁇ , and L as K, respectively. What is necessary is just to calculate.
  • the second estimation unit 105 may estimate the number of sound sources and the sound source direction at the second stage for the calibrated input signal.
  • T since the signal is digitized, if the discrete unit in the time direction is 1, T matches the number of signals.
  • is a parameter specified in advance.
  • the method of minimizing the value on the right side in Equation 15 is called sparse coding.
  • the target expression to be minimized by this method is the sum of the difference term at the time of base expansion and the penalty term that becomes smaller as the number of non-zero elements in the coefficient a i (f, t) is smaller.
  • the coefficient a i (f, t) can also be called an expansion coefficient.
  • the coefficient a i (f, t) and the basis ⁇ i (f) that minimize the function F can be calculated by alternately applying the steepest gradient method to the coefficient a i (f, t) and the basis ⁇ i (f). . Details of this calculation method are described in the following references, for example.
  • the function F illustrated in Expression 15 is a sound source direction vector (that is, ⁇ a i (f, t)) representing a signal by a weighted sum of basis vectors (base ⁇ i (f)) indicating the sound source direction.
  • ⁇ im (f)) and the vector indicating the original signal ie, x m (f, t) have as many expansion coefficients (ie, coefficients a i (f, t)) as possible. It can be said that it is an objective function with added penal terms.
  • this penalty term is a penalty term that becomes a smaller value as the number of components of the expansion coefficient that takes a value of 0 out of the expansion coefficient of the sound source direction vector (that is, coefficient a i (f, t)) increases. You can also.
  • the first estimation unit 103 estimates the number of sound sources and the sound source direction vector by minimizing the objective function.
  • the function F may include an increasing function of the basis number (here, the estimated number of sound sources L) and the amount of observation data (here, the number of observation signals T).
  • a function F including such a penalty term is defined as shown in Equation 16 below.
  • is a parameter specified in advance.
  • This function includes a penalty term in the second term on the right-hand side that suppresses an increase in the number of bases and an excessively complicated model.
  • the first estimation unit 103 can calculate a parameter for minimizing the function F by repeating the operation of fixing L and minimizing the first term at different L.
  • the first estimation unit 103 may estimate the number of sound sources and the sound source direction vector by minimizing the function F including the penalty term that is an increase function of the number of sound sources and the number of input signals. .
  • the first estimation unit 103 minimizes the objective function exemplified in Expression 16, it is possible to prevent the model from becoming too complicated.
  • Expression 16 is defined by adding the basis number and the increasing function of the observation data amount to the right side of Expression 15.
  • target function to which the increase function of the base number and the observation data amount is added is not limited to the content of Expression 15.
  • the function to be added may be another function as long as it is a function that can estimate the number of sound sources and the sound source direction from signals input to a plurality of microphones.
  • the first estimation unit 103 estimates the number of sound sources and the sound source direction vector by minimizing the function F described above has been described.
  • the first estimation unit 103 (and the second estimation unit 105) may estimate the number of sound sources and the sound source direction vector by performing clustering by the k-means method while sequentially increasing the number of clusters.
  • the cluster is divided, and if it does not increase, the cluster is not divided and the number of clusters and the cluster before the division are estimated. Then, the estimated number of clusters is set as the number of sound sources, and the basis vector is set with the cluster center vector as the sound source direction. Also, the coefficient a is set to 1 for the base vector of the cluster to which it belongs, and the coefficient a is set to 0 otherwise. In this way, the first estimation unit 103 may estimate the sound source direction vector.
  • the first estimation unit 103 gives a small number of cluster center points.
  • the cluster center point here is the sound source direction.
  • the first estimation unit 103 may provide M cluster centers in which only the components of each dimension of the m-dimensional space become 1. This corresponds to giving an initial value as the sound source direction for each microphone.
  • the first estimation unit 103 uses the data adjacent to each center point (that is, the signal X ′ (f, t)) as a cluster member, and updates the cluster center by calculating the center of the cluster member. After updating the cluster center, the first estimation unit 103 attempts to divide the cluster. Specifically, the first estimation unit 103 increases the number of clusters by dividing the cluster center into a plurality of parts and performing the above-described processing for updating the cluster center. Next, the first estimation unit 103 determines whether or not the Bayes information criterion is improved before and after the division. When the Bayes information criterion is improved, the first estimation unit 103 employs division processing. On the other hand, when the Bayes information criterion is not improved (that is, deteriorates), the first estimation unit 103 stops the division process.
  • the first estimation unit 103 uses the input signal obtained by converting the sound from each sound source collected by the plurality of microphones into the time frequency domain as a component (that is, X Based on (f, t)), the number of sound sources and the direction of the sound sources are estimated.
  • the input signal is input to the multi-microphone audio input unit 101, and the frequency domain conversion unit 102 converts the input signal into the time frequency domain. Further, the number of sound sources and the sound source direction of the sound sources are estimated using, for example, Expression 15.
  • the signal calibration unit 104 identifies the nearest sound source of each microphone based on the estimated number of sound sources and sound source direction.
  • the nearest sound source is specified using, for example, Equation 7.
  • the signal calibration unit 104 calculates the sound volume input to each microphone based on the audio signal emitted from the nearest sound source of each microphone.
  • the determination of the input volume is performed using, for example, Equation 8.
  • the signal calibration unit 104 calibrates the input signal so that the volume is uniform. Calibration of the input signal is performed using, for example, Equation 9 and Equation 10.
  • the second estimation unit 105 estimates the number of sound sources and the sound source direction based on the calibrated input signal, and classifies the speakers based on the estimated sound source direction.
  • the number of sound sources and the sound source direction of the sound sources are estimated using, for example, Equation 15.
  • speaker classification is performed using, for example, Expression 14.
  • the classification result output control unit 106 causes the output unit 107 to output the classification result.
  • the first estimation unit 103 estimates the number of speakers and the sound source direction, and the signal calibration unit 104 is uttered from the estimated sound source and the sound source nearest to each microphone. After calculating the average value of the audio signal, calibration is performed so that these average values are the same level in each microphone. Therefore, estimation of the number of speakers and classification of speakers can be performed appropriately.
  • the estimated number of sound sources may be less than the number of speakers.
  • the sound volume uttered from the plurality of speakers to the microphone m becomes approximately the same, so that the microphone calibration is performed. Can be done correctly.
  • the volume ratio can be calculated correctly. Therefore, for example, it can be observed that the relative positions of a plurality of speakers included in the sound source nearest to the microphone m differ from other microphones other than the microphone m. Therefore, the estimation accuracy can be increased by estimating the number of sound sources and the sound source direction again.
  • FIG. 2 is a block diagram showing an example of the minimum configuration of the multi-microphone speaker classification apparatus according to the present invention.
  • the multi-microphone speaker classification device according to the present invention has an input signal (for example, x m (f, f, t)) obtained by converting the sound (for example, x m (t)) from each sound source collected by a plurality of microphones into the time frequency domain.
  • the number of sound sources of the sound source for example, the estimated number of sound sources L
  • the direction of the sound source for example, the sound source
  • the first estimation means 81 for estimating the direction vector ⁇ i (f) and the coefficient a i (f, t) the number of sound sources and the sound source direction estimated by the first estimation means 81 (for example, using Expression 7)
  • the sound source nearest to each microphone is identified, and the sound volume input to each microphone is calculated based on the sound signal emitted from the sound source (for example, using Equation 8) so that the sound volume becomes uniform.
  • Signal calibration means 82 for calibrating the input signal (using 0), and estimating the number of sound sources and the direction of the sound source based on the calibrated input signal (eg, using Equation 15), and the estimated sound source direction
  • a second estimation means 83 for classifying the speaker based on (for example, using Equation 14).
  • Such a configuration makes it possible to appropriately estimate the number of speakers and classify speakers even when calibration is not performed between a plurality of microphones.
  • First estimation means for estimating the number of sound sources and the direction of sound sources based on a vector whose component is an input signal obtained by converting sound from each sound source collected by a plurality of microphones into a time-frequency domain And identifying the nearest sound source of each microphone based on the number of sound sources and the sound source direction estimated by the first estimating means, and based on the audio signal emitted from the sound source, calculating the volume input to each microphone, A signal calibration unit that calibrates the input signal so that the volume is uniform, and the number of sound sources and the direction of the sound source are estimated based on the calibrated input signal, and the speakers are classified based on the estimated sound source direction.
  • a multi-microphone speaker classification device comprising:
  • the first estimation means expands the sound source direction vector into a difference between a sound source direction vector representing the input signal by a weighted sum of basis vectors indicating the sound source direction and a signal vector indicating the original input signal.
  • Classification device is
  • the second estimation means uses the difference between a sound source direction vector expressing an input signal calibrated by a weighted sum of basis vectors indicating the sound source direction and a signal vector indicating the calibrated input signal as the sound source.
  • Supplementary note 1 or Supplementary note estimates the number of sound sources and the sound source direction of a sound source by minimizing a function obtained by adding a penalty term that becomes smaller as the number of components of the expansion coefficient that takes a value of 0 among the expansion coefficients of the direction vector 2.
  • the first estimation means estimates the number of sound sources and the direction of the sound source by minimizing a function including as a term an increase function related to the number of sound sources and the number of input signals.
  • the multi-microphone speaker classification device according to any one of the above.
  • the second estimation means estimates the number of sound sources and the direction of the sound source by minimizing a function including as a term an increase function related to the number of sound sources of the sound source and the number of calibrated input signals.
  • the multi-microphone speaker classification apparatus according to any one of 4.
  • the signal calibration means selects a sound source closest to each microphone based on the estimated sound source direction, calculates an average value of the volume indicated by the input signal input from the selected sound source, for each microphone,
  • the multi-microphone speaker classification device according to any one of supplementary notes 1 to 5, wherein the volume of the input signal input to each microphone is made uniform by calibrating the input signal using the average value.
  • the first estimation means calculates the volume ratio of the input signal input to each microphone based on the vector having the input signal as a component, and the number of sound sources of the sound source based on the vector having the volume ratio as a component
  • the multi-microphone speaker classification device according to any one of supplementary notes 1 to 6 for estimating a sound source direction.
  • the second estimation means calculates a volume ratio of the input signal input to each microphone based on a vector having the calibrated input signal as a component, and a sound source based on the vector having the volume ratio as a component
  • the multi-microphone speaker classification device according to any one of supplementary notes 1 to 7 that estimates the number of sound sources and the sound source direction.
  • the number of sound sources and the direction of sound sources of the sound sources are estimated and estimated based on a vector whose component is an input signal obtained by converting the sound from each sound source collected by a plurality of microphones into the time-frequency domain.
  • the nearest sound source of each microphone is identified based on the number of sound sources and the direction of the sound source, and the volume input to each microphone is calculated based on the audio signal emitted from the nearest sound source of each microphone.
  • the multi-microphone talk is characterized in that the input signal is calibrated so that the number of sound sources and the sound source direction of the sound source are estimated based on the calibrated input signal, and the speakers are classified based on the estimated sound source direction. Person classification method.
  • the expansion coefficient of the sound source direction vector has a value of 0 as the difference between the sound source direction vector representing the input signal by the weighted sum of the basis vectors indicating the sound source direction and the signal vector indicating the original input signal.
  • the computer estimates the number of sound sources and the sound source direction of the sound source based on a vector whose component is an input signal obtained by converting the sound from each sound source collected by a plurality of microphones into the time-frequency domain. Based on the number of sound sources and the sound source direction estimated in the first estimation process and the first estimation process, the nearest sound source of each microphone is identified, and the volume input to each microphone is determined based on the audio signal emitted from the sound source.
  • a signal calibration process for calculating and calibrating the input signal so that the sound volume is uniform, and estimating the number of sound sources and the sound source direction of the sound source based on the calibrated input signal, and based on the estimated sound source direction
  • a multi-microphone speaker classification program for executing a second estimation process for classifying speakers.
  • the sound source direction is added to the difference between the sound source direction vector representing the input signal by the weighted sum of the basis vectors indicating the sound source direction and the signal vector indicating the original input signal.
  • the present invention is suitably applied to a multi-microphone speaker classification device that classifies speakers using audio signals collected by a plurality of microphones.
  • the present invention can also be applied to applications such as speaker classification and speaker labeling in a speech recognition system.

Abstract

 第一推定手段は、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定する。信号較正手段は、第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、その音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、その音量が均一になるように入力信号を較正する。第二推定手段は、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する。

Description

多マイクロホン話者分類装置、方法およびプログラム
 本発明は、複数のマイクロホンで集音された音声信号を用いて話者を分類する多マイクロホン話者分類装置、多マイクロホン話者分類方法および多マイクロホン話者分類用プログラムに関する。
 多マイクロホン話者分類とは、複数の音源から発せられた音声信号(例えば、複数の話者が発声した音声信号)を、複数のマイクロホンで集音した場合に、音声信号の各区間を話者ごとに分類することをいう。
 特許文献1には、複数のマイクロホンによって収音された同一音響区間内における多話者の発話信号から、各話者の発話区間を判定する判定装置が記載されている。特許文献1に記載された判定装置は、M個のマイクロホンによって集音された観測信号をノイズか各話者による発話かに分類し、各話者による発話と分類された観測信号の中から話者を判定する。
 図3は、特許文献1に記載された判定装置の概要を示すブロック図である。図3に示す判定装置は、周波数領域変換部1と、観測信号分類部3とを含み、次のように動作する。
 周波数領域変換部1は、N人の話者の発話をM個のマイクロホンによって収音した時間領域の観測信号x(t)を(m=1,2,・・・,M)、周波数領域の観測信号x(f,t)に変換する。具体的には、周波数領域変換部1は、観測信号x(t)を短時間フーリエ変換し、観測信号x(f,t)を算出する。ここで、tは時刻であり、fは周波数である。また、周波数領域の観測信号ベクトルX(f,t)は、以下に示す式1のように定義される。
Figure JPOXMLDOC01-appb-M000001
 観測信号分類部3は、ある話者の発話がそれぞれのマイクロホンにどの程度の音量比で観測されたかを表す情報に基づいて、周波数領域の観測信号x(f,t)を分類する。具体的には、観測信号分類部3は、以下に示す式2に従って、周波数領域の観測信号x(f,t)を正規化し、それぞれのマイクロホンにどの程度の音量比で収音されたかを表す情報を求める。
Figure JPOXMLDOC01-appb-M000002
 式2に示すように、観測信号分類部3は、周波数領域の各観測信号x(f,t)の絶対値を、周波数領域の観測信号ベクトルのノルムで割る。そして、観測信号分類部3は、正規化された周波数領域の観測信号x’(f,t)を時間周波数ごとに求める。また、観測信号x’(f,t)を成分とするベクトルをX’(f,t)と定義する。このX’(f,t)は、正規化された周波数領域の信号である。具体的には、X’(f,t)は、着目する周波数fごとに、マイク間の音量比として算出される周波数領域の信号の絶対値を意味する。
 次に、観測信号分類部3は、X’(f,t)をクラスタリングする。ここで、話者はN人とし、話者の近くにM個のマイクロホンが配置されているものとする。この場合、M個のマイクロホンで集音された信号の音量比はN個のクラスタを形成することが期待される。
 ここで、話者n(n=1,・・・,N)の発話に対するクラスタを、平均ベクトルme、共分散行列σ Iのガウス分布でモデル化した場合、その尤度pは、以下に示す式3を用いて算出される。観測信号分類部3は、このモデルに入力信号の情報を用いて尤度を算出した際、最も尤度が高くなるモデルを求めることで、分類結果を出力する。
Figure JPOXMLDOC01-appb-M000003
 なお、話者が推定された入力信号を用いて平均ベクトルおよび共分散行列を更新することで、上記モデルが更新される。
 なお、非特許文献1には、X’(f,t)をクラスタリングする他の例が記載されている。非特許文献1に記載された方法では、正規化された特徴量X’(f,t)を、k-means法を用いてM次元空間上でクラスタリングし、それぞれのクラスタを音源話者と推定する。
 ここで、k-means法について説明する。k-means法によるクラスタリングでは、まず、あらかじめ定めたクラスタ数個、またはそれより少ない個数のクラスタ中心を与える。次に、対象とするデータ集合の各データは、最も近傍に存在するクラスタ中心のクラスタに所属するものとして、各データが所属するクラスタを決定する。各クラスタに所属するデータが決定すると、そのクラスタ内でクラスタ中心を決定し、そのクラスタ中心になったクラスタに所属するデータを再度決定する処理を繰り返す。この繰り返し処理は、クラスタが不変になるまで行われる。なお、初期のクラスタ中心の個数が、あらかじめ定めたクラスタの個数より少ない場合は、繰り返し処理の途中でクラスタ中心を複数に分割することにより、クラスタ数を増加させる。これを、クラスタの個数が所定の個数になるまで繰り返す。
 このように、複数のセンサ(マイクロホン)で集音した信号の音量比(X’(f,t))を特徴量としてクラスタリングすることで音源を分類し、発話者を分類する。
特開2008-158035号公報
S. Araki, H. Sawada, R. Mukai and S. Makino, "A novel blind source separation method with observation vector clustering" in Proc. IWAENC2005, Sept. 2005.
 ところで、特許文献1に記載された判定装置によって算出される正規化されたM次元ベクトルの特徴量X’(f,t)は、M次元の超球面の上に制約されたものになる。一方、この特徴量X’(f,t)は、観測された信号X(f,t)のノルムで正規化されている。そのため、例えば、一つのマイクロホンの感度が高い場合、その感度が高いマイクロホンに対応する一つの次元の成分にベクトル値が集中する。そのため、十分な精度でクラスタリングを行うことは困難となり、話者分類性能が低下してしまう。
 すなわち、特許文献1に記載された判定装置を用いて話者を分類する際、異なる種類のマイクロホンが使用されている場合や、複数のマイクロホンの感度が調整されていない場合(すなわち、キャリブレーションが行われていない場合)、話者を分類する十分な性能が得られないと言う課題がある。
 そこで、本発明は、異なる種類のマイクロホンが使用されている場合や、マイクロホンの感度が調整されていない場合、すなわち、複数のマイクロホンの間でキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる多マイクロホン話者分類装置、多マイクロホン話者分類方法および多マイクロホン話者分類用プログラムを提供することを目的とする。
 本発明による多マイクロホン話者分類装置は、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定する第一推定手段と、第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正手段と、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定手段とを備えたことを特徴とする。
 本発明による多マイクロホン話者分類方法は、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定し、推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、各マイクロホンの最寄りの音源から発せられる音声信号を基に、当該各マイクロホンに入力される音量を算出し、音量が均一になるように入力信号を較正し、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類することを特徴とする。
 本発明による多マイクロホン話者分類用プログラムは、コンピュータに、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定する第一推定処理、第一推定処理で推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正処理、および、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定処理を実行させることを特徴とする。
 本発明によれば、複数のマイクロホンの間でキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる。
本発明による多マイクロホン話者分類装置の一実施形態を示すブロック図である。 本発明による多マイクロホン話者分類装置の最小構成の例を示すブロック図である。 一般的な話者分類装置を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、本発明による多マイクロホン話者分類装置の一実施形態を示すブロック図である。本実施形態における多マイクロホン話者分類装置100は、ハードウェア、ソフトウェア、およびこれらの組み合わせにより実現することができる。具体的には、多マイクロホン話者分類装置100は、プログラムに従って動作するコンピュータ等の情報処理装置によって実現される。
 多マイクロホン話者分類装置100は、多マイクロホン音声入力部101(以下、多マイク音声入力部101と記す。)と、周波数領域変換部102と、第一推定部103と、信号較正部104と、第二推定部105と、分類結果出力制御部106と、出力部107とを備えている。
 多マイク音声入力部101には、複数のマイクロホンから集音された音声が入力される。そして、多マイク音声入力部101は、入力された音声をデジタル化し、各マイクロホンのチャンネルごとの音声信号を周波数領域変換部102に入力する。なお、多マイク音声入力部101は、既にデジタル化して録音された音声信号をネットワーク経由やファイル経由などで受信し、受信した音声信号をデジタル化してもよい。以下の説明では、音声信号がM個のマイクロホンで集音されるものとし、時刻tにおいてマイクロホンmが集音した音声信号をx(t)(ただし、m=1,2,…,M)と表す。
 分類結果出力制御部106は、話者を分類した結果を出力部107に出力させる。出力部107は、例えば、ディスプレイ装置により実現される。この場合、分類結果出力制御部106は、話者を分類した結果を出力部107に表示させる。ただし、出力部107は、ディスプレイ装置に限定されない。出力部107は、例えば、プリンタ等であってもよい。
 周波数領域変換部102は、多マイク音声入力部101がデジタル化した音声信号を時間周波数領域の信号に変換する。具体的には、周波数領域変換部102は、デジタル化された音声信号を短時間フーリエ変換することにより、時間周波数領域の信号に変換する。以下、音声信号x(t)を時間周波数領域に変換した信号をx(f,t)と表す。ここで、fは周波数である。また、時間周波数領域に変換されたM個の信号を並べて列としたM次元ベクトルを、X(f,t)と表す。すなわち、X(f,t)は、時間周波数領域の信号であり、以下に示す式4で表わされる。
Figure JPOXMLDOC01-appb-M000004
 第一推定部103は、周波数領域変換部102が算出した時間周波数領域の信号X(f,t)を基に、音源数および音源方向を推定する。まず、第一推定部103は、周波数領域変換部102が算出した時間周波数領域の信号X(f,t)における各ベクトル成分の絶対値を、X(f,t)のノルムで正規化した特徴量X’(f,t)を算出する。X’(f,t)は、以下に示す式5で表わされる。なお、上述の通り、特徴量X’(f,t)は、マイクロホン間の音量比と言うことが出来る。
Figure JPOXMLDOC01-appb-M000005
 次に、第一推定部103は、X’(f,t)から音源数および音源方向を推定し、推定された音源方向を基底ベクトルとして展開する。以下、第一推定部103が推定した音源数および音源方向を第一段階の音源数および音源方向と記す。ここで、推定音源数をL、各音源のM次元の音源方向ベクトルをφ(f)、音源方向ベクトルφ(f)を基底ベクトルとしたときの係数をa(f,t)とすると、X’(f,t)は、式6に示すように表わすことができる。
Figure JPOXMLDOC01-appb-M000006
 第一推定部103は、推定音源数L、M次元の音源方向ベクトルφ(f)及び係数a(f,t)を算出することにより音源数及び音源方向を推定する。なお、これらの算出方法については後述する。
 信号較正部104は、第一推定部103が推定した音源数および音源方向の情報を基に、マイクロホンの感度の較正を行う。具体的には、信号較正部104は、各マイクロホンの最寄りの音源から発せられた音声信号を基に音量を算出し、算出した音量が均一になるように入力信号を較正する。信号較正部104は、例えば、最寄りの音源から観測した信号の平均値が各マイクロホンで同一レベルになるように調整を行う。以下、詳細に説明する。
 まず、信号較正部104は、各マイクロホンの最寄りの音源を特定する。ここで、マイクロホンmの最寄りの音源をj(f)とすると、この音源j(f)を特定する関数は、以下に示す式7のように表わすことができる。
Figure JPOXMLDOC01-appb-M000007
 ここで、φim(f)は、ベクトルφ(f)の第m成分を表す。すなわち、j(f)は、音源方向ベクトルの第m成分φim(f)が最も大きい音源iとして選択されたものである。最も大きい音源方向ベクトルφim(f)を選択するとは、L個の音源φ(f)のうち、マイクmの最も近くの音源を選択する意味を持つものである。このように、信号較正部104は、L個の音源ベクトルのうち、その第m成分を比較して最も大きい音源j(f)を選択することで、各マイクロホンの最寄りの音源を特定する。
 次に、信号較正部104は、時刻tにおける信号の周波数fが音源j(f)から出力されたか否かを推定する。ここで、時刻tにおける信号の周波数成分fが音源j(f)から出力されたか否かを表す値をδjm(f)(t)とすると、δjm(f)(t)は、以下に示す式8のように定義される。
Figure JPOXMLDOC01-appb-M000008
 式8は、音源方向を基底ベクトルとしたときの係数が最も大きい音源iが、音源j(f)であると判定する関数である。係数が最も大きい音源を選択するとは、信号の推定された音源方向のいずれかからの音か推定していると言うこともできる。具体的には、式8は、時刻tにおける信号の周波数成分fが、音源j(f)から出力したと推定されるときは1、それ以外のときは0になる関数である。このように、信号較正部104は、時刻tにおける信号の周波数fが音源j(f)から出力されたか否かを式8を用いて推定する。
 次に、信号較正部104は、マイクロホンmの最寄りの音源j(f)から観測される信号の絶対値の平均値を算出する。信号較正部104は、マイクmの最寄りの音源j(f)からの観測信号の絶対値の平均値r(f)を、例えば、以下に示す式9を用いて算出する。
Figure JPOXMLDOC01-appb-M000009
 そして、信号較正部104は、算出した平均値r(f)を用いて、各マイクの音量が同一レベルになるように信号x(f,t)を調整する。具体的には、信号較正部104は、以下に示す式10を用いて、信号x(f,t)を調整した信号y(f,t)を算出する。
Figure JPOXMLDOC01-appb-M000010
 式9により算出された平均値r(f)は、各マイクの最寄りの音源からの音量を示す量である。そのため、マイクごとに算出された平均値r(f)で各マイクへの信号x(f,t)を除算することにより、各マイクの音量が同一レベルになるように調整された信号が得られることになる。以下、調整されたM個の信号を並べて列としてM次元ベクトルを、Y(f,t)と表す。すなわち、Y(f,t)は、以下に示す式11で表わされる。
Figure JPOXMLDOC01-appb-M000011
 また、信号較正部104は、信号Y(f,t)における各ベクトル成分の絶対値を、Y(f,t)のノルムで正規化したY’(f,t)を算出する。Y’(f,t)は、以下に示す式12で表わされる。
Figure JPOXMLDOC01-appb-M000012
 なお、信号較正部104は、観測信号の絶対値の平均値r(f)の代わりに、音声パワーである観測信号二乗の平均値を算出し、この平均値を用いて信号x(f,t)を較正してもよい。
 以上のように、信号較正部104は、推定された音源方向に基づいて各マイクロホンに最も近い音源を式7及び式8を用いて選択し、選択された音源から入力される入力信号が示す音量の平均値(例えば、r(f))を、式9を用いてマイクロホンごとに算出する。そして、信号較正部104は、その平均値を用いて、式10により入力信号x(f,t)を較正することにより、各マイクロホンに入力される入力信号の音量を均一にする。
 第二推定部105は、信号較正部104が算出した信号Y’(f,t)を基に、音源数および音源方向を推定し、推定した音源方向に基づいて話者を分類する。以下、第二推定部105が推定した音源数および音源方向を第二段階の音源数および音源方向と記す。ここで、推定音源数をK、各音源のM次元の音源方向ベクトルをψ(f)、音源方向を基底ベクトルとしたときの係数をb(f,t)とすると、Y’(f,t)は、式13に示すように表わすことができる。
Figure JPOXMLDOC01-appb-M000013
 第二推定部105は、推定音源数K、M次元の音源方向ベクトルψ(f)及び係数b(f,t)を算出することにより音源数及び音源方向ベクトルを推定する。
 また、第二推定部105は、音源方向c(f,t)を、以下に示す式14を用いて算出する。この音源方向c(f,t)を算出することにより、話者を分類する。
Figure JPOXMLDOC01-appb-M000014
 なお、周波数領域変換部102と、第一推定部103と、信号較正部104と、第二推定部105と、分類結果出力制御部106とは、プログラム(多マイクロホン話者分類用プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、多マイク話者分類装置100の記憶部に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、周波数領域変換部102、第一推定部103、信号較正部104、第二推定部105および分類結果出力制御部106として動作してもよい。また、周波数領域変換部102と、第一推定部103と、信号較正部104と、第二推定部105と、分類結果出力制御部106とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、第一推定部103及び第二推定部105が、第一段階および第二段階の音源数と音源方向とを推定する方法を説明する。第一段階および第二段階の音源数および音源方向を推定する方法は、第一推定部103と第二推定部105で同一であってもよく、異なっていてもよい。以下、第一推定部103が、音源数と音源方向を推定する場合について説明する。
 本実施形態では、第一推定部103が以下に示す式15で定義される関数Fを最小化する係数a(f,t)、基底φ(f)および音源数Lを算出することにより、第一段階の音源数と音源方向とを推定する方法を説明する。なお、第二推定部105が第二段階の音源数と音源方向とを推定する場合、式15におけるxをyと、aをbと、φをψと、LをKと、それぞれ読み替えてそれぞれ算出すればよい。具体的には、第二推定部105は、較正された入力信号を対象として第二段階の音源数と音源方向とを推定すればよい。
Figure JPOXMLDOC01-appb-M000015
 式15におけるTは、時刻t(t=1、2、・・・T)において観測した信号の数であり、観測信号数と呼ぶことが出来る。ここでは、信号がデジタル化されているため、時間方向の離散単位を1とすると、Tは信号数に一致する。また、λは、事前に指定されるパラメータである。
 ここで、式15における右辺の値を最小化する方法は、スパースコーディングと呼ばれる。この方法により最小化する対象の式は、基底展開時の差分項と、係数a(f,t)における非0の要素数が少ないほどより小さくなる罰則項との和からなる。この場合、係数a(f,t)を、展開係数と呼ぶこともできる。関数Fを最小化する係数a(f,t)及び基底φi(f)は、係数a(f,t)及び基底φi(f)について交互に最急勾配法を適用することにより算出できる。この算出方法の詳細については、例えば、以下の参考文献に記載されている。
<参考文献>
 B.A. Olshausen and D.J. Field, “Emergence of simple-cell receptive field properties by learning a sparse code for natural images”, Nature vol. 381, pp607-609, 1996.
 以上のことから、式15に例示する関数Fは、音源方向を示す基底ベクトル(基底φ(f))の重み付き和で信号を表現した音源方向ベクトル(すなわち、Σa(f,t)φim(f))と、元の信号を示すベクトル(すなわち、x(f,t))との差分に、出来るだけ多くの展開係数(すなわち、係数a(f,t))が0になるような罰則項を加算した目的関数と言うことができる。また、この罰則項は、音源方向ベクトルの展開係数(すなわち、係数a(f,t))のうち、0の値をとる展開係数の成分が多くなるほど小さな値になる罰則項であると言うこともできる。第一推定部103は、この目的関数を最小化することにより、音源数と音源方向ベクトルを推定する。
 さらに、関数Fは、基底数(ここでは、推定音源数L)と観測データ量(ここでは、観測信号数T)の増加関数を含んでいてもよい。このような罰則項を含む関数Fを、以下に示す式16のように定義する。
Figure JPOXMLDOC01-appb-M000016
 ここで、ηは、事前に指定されるパラメータである。この関数は、右辺第2項に、基底数が増加してモデルが複雑化しすぎることを抑制する罰則項を含む。この場合、第一推定部103は、Lを固定して第1項を最小化する作業を、異なるLで繰り返すことにより関数Fを最小化するパラメータを算出することが出来る。
 このように、第一推定部103は、音源数の個数と入力信号数の増加関数となる罰則項を含む関数Fを最小化することにより、音源数と音源方向ベクトルとを推定してもよい。第一推定部103が式16に例示する目的関数を最小化することで、モデルが複雑化しすぎることを抑制できる。
 なお、λ、ηとして、音源数、音源方向およびマイクの感度が既知の状態で収録した開発用の音声データを用い、推定結果が適切な値になるように最適化したパラメータを予め決定しておけばよい。
 また、上記説明では、基底数と観測データ量の増加関数を式15の右辺に追加して式16を定義する場合について説明した。ただし、基底数と観測データ量の増加関数を追加する対象の関数は、式15の内容に限定されない。複数のマイクロホンに入力される信号から音源の音源数および音源方向を推定できる関数であれば、追加する対象の関数は、他の関数であってもよい。
 以上、第一推定部103が、上述した関数Fを最小化して音源数と音源方向ベクトルとを推定する場合について説明した。他にも、第一推定部103(および第二推定部105)は、クラスタ数を順次増やしながらk-means法によるクラスタリングを行うことで音源数と音源方向ベクトルとを推定してもよい。
 具体的には、クラスタ数の分割前後で、ベイズ情報量が増加すればクラスタの分割を行い、増加しなければクラスタを分割せずに、分割前のクラスタ数およびクラスタを推定値とする。そして、推定されたクラスタ数を音源数とし、クラスタ中心ベクトルを音源方向とする基底ベクトルとする。また、所属するクラスタの基底ベクトルに対しては係数aを1に、それ以外は係数aを0とする。このようにして第一推定部103は、音源方向ベクトルを推定してもよい。
 以下、k-means法によるクラスタリングを行う方法を、さらに説明する。まず、第一推定部103は、少数のクラスタ中心点を与える。ここでのクラスタ中心点とは音源方向のことである。第一推定部103は、例えば、m次元の空間の各次元の成分のみ1になるM個のクラスタ中心を与えてもよい。このことは、各マイクロホンで音源方向とする初期値を与えることに相当する。
 第一推定部103は、各中心点に隣接するデータ(すなわち、信号X’(f,t))をクラスタのメンバとし、クラスタメンバの中心を算出することでクラスタ中心を更新する。クラスタ中心の更新後、第一推定部103は、クラスタの分割を試みる。具体的には、第一推定部103は、クラスタ中心を複数に分割し、クラスタ中心を更新する上述の処理を行うことでクラスタ数を増加させる。次に、第一推定部103は、分割前後でベイズ情報量基準が改善するか否かを判断する。ベイズ情報量基準が改善する場合、第一推定部103は、分割処理を採用する。一方、ベイズ情報量基準が改善しない(すなわち、悪化する)場合、第一推定部103は、分割処理を中止する。
 以上のように、本実施形態によれば、第一推定部103が、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトル(すなわち、X(f,t))に基づいて、音源の音源数および音源方向を推定する。なお、入力信号は、多マイク音声入力部101に入力され、周波数領域変換部102が、入力信号を時間周波数領域に変換する。また、音源の音源数および音源方向は、例えば、式15を用いて推定される。
 信号較正部104は、推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定する。最寄りの音源は、例えば、式7用いて特定される。次に、信号較正部104は、各マイクロホンの最寄りの音源から発せられる音声信号を基に、その各マイクロホンに入力される音量を算出する。入力される音量の判断は、例えば、式8を用いて行われる。そして、信号較正部104は、その音量が均一になるように入力信号を較正する。入力信号の較正は、例えば、式9及び式10を用いて行われる。
 第二推定部105は、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する。音源の音源数および音源方向は、例えば、式15を用いて推定される。また、話者の分類は、例えば、式14を用いて行われる。その後、分類結果出力制御部106は、分類結果を出力部107に出力させる。
 以上の処理を行うことで、異なる種類のマイクロホンが使用されている場合や、マイクロホンの感度が調整されていない場合、すなわち、複数のマイクロホンの間で事前にキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる
 一般的に、m番目のマイクロホンに入力される信号には、最寄りの音源だけでなく、それ以外の音源からの信号も混在する。また、各音源からの発言量を事前に把握することは困難である。そのため、例えば、単純にm番目のマイクロホンに入力される信号全体の平均値を用いて較正を行った場合、発話頻度が高い音源からのレベルに強い影響を受けることになる。このとき、発話頻度が高い音源が必ずしも最寄りの音源であるとは限らない。そのため、このような音源からの値を基準に較正を行ったとしても、必ずしも適切な値に較正することはできるとは限らない。
 しかし、本実施形態では、第一推定部103が、話者数および音源方向を推定し、信号較正部104が、推定された情報から、各マイクロホンの最寄りの音源と、その音源から発声された音声信号の平均値を算出後、それらの平均値が各マイクロホンで同一レベルになるように較正を行っている。そのため、話者数の推定及び話者の分類を適切に行うことができる。
 また、例えば、あるマイクロホンmの最寄りの音源に複数の真の話者数が含まれている場合、推定される音源数が話者数よりも少なくなる場合も考えられる。このように、第一段階での分類を十分な精度で行うことが困難な状況であったとしても、上記複数の話者からマイクロホンmへ発声される音量は同等程度になるため、マイクロホンの較正は正しく行うことが可能である。マイクロホンの較正が正しく行われた結果、音量比が正しく算出できるようになる。そのため、例えば、マイクmの最寄りの音源に含まれる複数の話者間でマイクm以外の他のマイクとの相対位置が異なることが観測できる。したがって、再度音源数および音源方向を推定することにより、推定精度を高めることが可能になる。
 また、本実施形態では、音源数と音源方向とを推定するため、事前に話者数や音源方向の初期値を指定しておく必要はない。
 次に、本発明による多マイクロホン話者分類装置の最小構成の例を説明する。図2は、本発明による多マイクロホン話者分類装置の最小構成の例を示すブロック図である。本発明による多マイクロホン話者分類装置は、複数のマイクロホンで集音された各音源からの音声(例えば、x(t))を時間周波数領域に変換した入力信号(例えば、x(f,t))を成分とするベクトル(例えば、X(f,t))に基づいて(例えば、式15を用いて)、音源の音源数(例えば、推定音源数L)および音源方向(例えば、音源方向ベクトルφ(f)及び係数a(f,t))を推定する第一推定手段81と、第一推定手段81が推定した音源数および音源方向に基づいて(例えば、式7を用いて)各マイクロホンの最寄りの音源を特定し、その音源から発せられる音声信号を基に(例えば、式8を用いて)、各マイクロホンに入力される音量を算出し、その音量が均一になるように(例えば、式9および式10を用いて)入力信号を較正する信号較正手段82と、較正された入力信号に基づいて(例えば、式15を用いて)、音源の音源数および音源方向を推定し、推定された音源方向に基づいて(例えば、式14を用いて)話者を分類する第二推定手段83とを備えている。
 そのような構成により、複数のマイクロホンの間でキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定手段と、前記第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正手段と、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定手段とを備えたことを特徴とする多マイクロホン話者分類装置。
(付記2)第一推定手段は、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち0の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する付記1記載の多マイクロホン話者分類装置。
(付記3)第二推定手段は、音源方向を示す基底ベクトルの重み付き和で較正された入力信号を表現した音源方向ベクトルと、較正された入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち0の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する付記1または付記2記載の多マイクロホン話者分類装置。
(付記4)第一推定手段は、音源の音源数と入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する付記1から付記3のうちのいずれか1つに記載の多マイクロホン話者分類装置。
(付記5)第二推定手段は、音源の音源数と較正された入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する付記1から付記4のうちのいずれか1つに記載の多マイクロホン話者分類装置。
(付記6)信号較正手段は、推定された音源方向に基づいて各マイクロホンに最も近い音源を選択し、選択された音源から入力される入力信号が示す音量の平均値をマイクロホンごとに算出し、当該平均値を用いて入力信号を較正することにより、各マイクロホンに入力される入力信号の音量を均一にする付記1から付記5のうちのいずれか1つに記載の多マイクロホン話者分類装置。
(付記7)第一推定手段は、入力信号を成分とするベクトルに基づいて各マイクロホンに入力される入力信号の音量比を算出し、当該音量比を成分とするベクトルに基づいて音源の音源数および音源方向を推定する付記1から付記6のうちのいずれか1つに記載の多マイクロホン話者分類装置。
(付記8)第二推定手段は、較正された入力信号を成分とするベクトルに基づいて各マイクロホンに入力される入力信号の音量比を算出し、当該音量比を成分とするベクトルに基づいて音源の音源数および音源方向を推定する付記1から付記7のうちのいずれか1つに記載の多マイクロホン話者分類装置。
(付記9)複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定し、推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、各マイクロホンの最寄りの音源から発せられる音声信号を基に、当該各マイクロホンに入力される音量を算出し、前記音量が均一になるように入力信号を較正し、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類することを特徴とする多マイクロホン話者分類方法。
(付記10)音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が0の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する付記9記載の多マイクロホン話者分類方法。
(付記11)コンピュータに、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定処理、前記第一推定処理で推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正処理、および、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定処理を実行させるための多マイクロホン話者分類用プログラム。
(付記12)コンピュータに、第一推定処理で、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が0の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定させる付記11記載の多マイクロホン話者分類用プログラム。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2010年8月16日に出願された日本特許出願2010-181693を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、複数のマイクロホンで集音された音声信号を用いて話者を分類する多マイクロホン話者分類装置に好適に適用される。また、本発明を、音声認識システムにおける発話者分類や話者ラベリングといった用途にも適応可能である。
 1 周波数領域変換部
 3 観測信号分類部
 100 多マイク話者分類装置
 101 多マイク音声入力部
 102 周波数領域変換部
 103 第一推定部
 104 信号較正部
 105 第二推定部
 106 分類結果出力制御部
 107 出力部

Claims (10)

  1.  複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定手段と、
     前記第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正手段と、
     較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定手段とを備えた
     ことを特徴とする多マイクロホン話者分類装置。
  2.  第一推定手段は、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち0の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する
     請求項1記載の多マイクロホン話者分類装置。
  3.  第二推定手段は、音源方向を示す基底ベクトルの重み付き和で較正された入力信号を表現した音源方向ベクトルと、較正された入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち0の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する
     請求項1または請求項2記載の多マイクロホン話者分類装置。
  4.  第一推定手段は、音源の音源数と入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する
     請求項1から請求項3のうちのいずれか1項に記載の多マイクロホン話者分類装置。
  5.  第二推定手段は、音源の音源数と較正された入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する
     請求項1から請求項4のうちのいずれか1項に記載の多マイクロホン話者分類装置。
  6.  信号較正手段は、推定された音源方向に基づいて各マイクロホンに最も近い音源を選択し、選択された音源から入力される入力信号が示す音量の平均値をマイクロホンごとに算出し、当該平均値を用いて入力信号を較正することにより、各マイクロホンに入力される入力信号の音量を均一にする
     請求項1から請求項5のうちのいずれか1項に記載の多マイクロホン話者分類装置。
  7.  複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定し、
     推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、
     各マイクロホンの最寄りの音源から発せられる音声信号を基に、当該各マイクロホンに入力される音量を算出し、
     前記音量が均一になるように入力信号を較正し、
     較正された入力信号に基づいて、音源の音源数および音源方向を推定し、
     推定された音源方向に基づいて話者を分類する
     ことを特徴とする多マイクロホン話者分類方法。
  8.  音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が0の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する
     請求項7記載の多マイクロホン話者分類方法。
  9.  コンピュータに、
     複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定処理、
     前記第一推定処理で推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正処理、および、
     較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定処理
     を実行させるための多マイクロホン話者分類用プログラム。
  10.  コンピュータに、
     第一推定処理で、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が0の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定させる
     請求項9記載の多マイクロホン話者分類用プログラム。
PCT/JP2011/004552 2010-08-16 2011-08-11 多マイクロホン話者分類装置、方法およびプログラム WO2012023268A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-181693 2010-08-16
JP2010181693 2010-08-16

Publications (1)

Publication Number Publication Date
WO2012023268A1 true WO2012023268A1 (ja) 2012-02-23

Family

ID=45604938

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/004552 WO2012023268A1 (ja) 2010-08-16 2011-08-11 多マイクロホン話者分類装置、方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2012023268A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
EP3288030A1 (en) 2016-08-24 2018-02-28 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
CN109903753A (zh) * 2018-12-28 2019-06-18 广州索答信息科技有限公司 基于声源角度的多人语句分类方法、设备、介质及系统
CN112365895A (zh) * 2020-10-09 2021-02-12 深圳前海微众银行股份有限公司 音频处理方法、装置及计算设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001309483A (ja) * 2000-04-19 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> 収音方法および収音装置
JP2003114699A (ja) * 2001-10-03 2003-04-18 Auto Network Gijutsu Kenkyusho:Kk 車載音声認識システム
JP2003153372A (ja) * 2001-11-14 2003-05-23 Matsushita Electric Ind Co Ltd マイクロホン装置
WO2004071130A1 (ja) * 2003-02-07 2004-08-19 Nippon Telegraph And Telephone Corporation 収音方法及び収音装置
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP2009021764A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 音声通信装置及び音声通信方法並びにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001309483A (ja) * 2000-04-19 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> 収音方法および収音装置
JP2003114699A (ja) * 2001-10-03 2003-04-18 Auto Network Gijutsu Kenkyusho:Kk 車載音声認識システム
JP2003153372A (ja) * 2001-11-14 2003-05-23 Matsushita Electric Ind Co Ltd マイクロホン装置
WO2004071130A1 (ja) * 2003-02-07 2004-08-19 Nippon Telegraph And Telephone Corporation 収音方法及び収音装置
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP2009021764A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 音声通信装置及び音声通信方法並びにプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
EP3288030A1 (en) 2016-08-24 2018-02-28 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
US10014838B2 (en) 2016-08-24 2018-07-03 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
CN109903753A (zh) * 2018-12-28 2019-06-18 广州索答信息科技有限公司 基于声源角度的多人语句分类方法、设备、介质及系统
CN109903753B (zh) * 2018-12-28 2022-07-15 广州索答信息科技有限公司 基于声源角度的多人语句分类方法、设备、介质及系统
CN112365895A (zh) * 2020-10-09 2021-02-12 深圳前海微众银行股份有限公司 音频处理方法、装置及计算设备、存储介质
CN112365895B (zh) * 2020-10-09 2024-04-19 深圳前海微众银行股份有限公司 音频处理方法、装置及计算设备、存储介质

Similar Documents

Publication Publication Date Title
CN112447191B (zh) 信号处理装置以及信号处理方法
EP2189976B1 (en) Method for adapting a codebook for speech recognition
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
EP3511937B1 (en) Device and method for sound source separation, and program
EP2022042B1 (en) Intersession variability compensation for automatic extraction of information from voice
US20110125496A1 (en) Speech recognition device, speech recognition method, and program
JPWO2008126627A1 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
KR101103734B1 (ko) 가우시안 혼합 모델 기반 변환에서의 소프트 정렬
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
WO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP4922225B2 (ja) 音声認識装置及び音声認識プログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
CN110675890A (zh) 声音信号处理装置以及声音信号处理方法
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
JP2020038315A (ja) 音声情報処理装置および方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11817918

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11817918

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP