WO2011010647A1 - 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法 - Google Patents

混合音信号中の混合比率推定方法及びシステム並びに音素認識方法 Download PDF

Info

Publication number
WO2011010647A1
WO2011010647A1 PCT/JP2010/062205 JP2010062205W WO2011010647A1 WO 2011010647 A1 WO2011010647 A1 WO 2011010647A1 JP 2010062205 W JP2010062205 W JP 2010062205W WO 2011010647 A1 WO2011010647 A1 WO 2011010647A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
template
sound signal
noise
sound
Prior art date
Application number
PCT/JP2010/062205
Other languages
English (en)
French (fr)
Inventor
弘将 藤原
後藤 真孝
Original Assignee
独立行政法人産業技術総合研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人産業技術総合研究所 filed Critical 独立行政法人産業技術総合研究所
Priority to JP2011523664A priority Critical patent/JP5334142B2/ja
Publication of WO2011010647A1 publication Critical patent/WO2011010647A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a mixing ratio estimation method and system for a mixed sound signal for estimating a mixing ratio between a target sound signal and a noise signal in the mixed sound signal, and a phoneme recognition method.
  • Non-patent Document 1 On the premise that the mixing ratio (S / N ratio) between the target sound signal and the noise signal in the mixed sound signal is known, the technology for recognizing the speech included in the acoustic signal, or the phoneme recognition technology Has proposed a technique for improving recognition accuracy (Non-patent Document 1).
  • An object of the present invention is to provide a mixed sound signal mixing ratio estimation method and system capable of estimating a mixing ratio between a target sound signal and a noise signal in a mixed sound signal.
  • another object of the present invention is to provide a mixed sound signal mixing ratio estimation method capable of estimating the fundamental frequency F0 together when estimating the mixing ratio of the voiced sound signal. is there.
  • Another object of the present invention is to provide a phoneme recognition method for performing phoneme recognition using an estimated mixing ratio.
  • An object of the present invention is to improve a mixing ratio estimation method of a mixed sound signal by using a computer to estimate a mixing ratio of a target sound signal and a noise signal included in one frame signal obtained discretely from the mixed sound signal.
  • the target sound signal includes an audio signal (including a singing voice signal), an acoustic signal of a musical instrument, and the like.
  • the noise signal is a signal other than the target sound signal included in the mixed sound signal.
  • “one frame signal obtained discretely” is a signal obtained from a mixed sound signal using a Hanning window having a predetermined time width as one frame.
  • one or more target sound spectrum templates indicating the relationship between the frequency components of one or more learning target sound signals and the probability distribution of the power spectrum are prepared.
  • one or more noise spectrum templates indicating the relationship between the frequency component of one or more learning noise signals and the probability distribution of the power spectrum are prepared.
  • one or more stochastic spectrum templates are created by combining one or more target sound spectrum templates and one or more noise spectrum templates.
  • a set of probability distributions in which a spectrum of a mixed sound signal including speech (including singing voice) exists is called a probabilistic spectrum template (Probabilistic_Spectral Template).
  • the learning target sound signal is one or more learning sound signals collected according to the target sound.
  • the target sound is a voice
  • a single sound signal such as a voiced sound such as a vowel or a consonant sound or an unvoiced sound becomes the learning target sound signal.
  • a plurality of single sound signals as learning target sound signals from a plurality of human sound signals.
  • a plurality of types of learning target sound signals may be used, divided into types such as male audio signals, female audio signals, and child audio signals.
  • the target sound is a stringed instrument sound
  • a single tone signal of a certain stringed instrument becomes the learning target sound signal.
  • the target sound is a percussion instrumental sound
  • a single percussion instrument sound signal is used for learning. This is the target sound signal.
  • the learning noise signal is a sound signal other than the sound signal of the target sound included in the target mixed sound signal. If the music signal of the music including the singing voice is a mixed sound signal, the singing voice is the target sound and the background accompaniment sound is the noise sound. Therefore, the learning noise sound is appropriately selected in consideration of the type of noise sound included in the target mixed sound signal. If there is a sound signal only for the singing voice, the sound signal only for the singing voice becomes the learning target sound signal, and if there is a sound signal only for the accompaniment, the sound signal only for the accompaniment becomes the learning noise signal. Such a learning target sound signal and a learning noise signal are obtained individually.
  • the learning target sound signal and the learning noise signal may not be easily available. Therefore, in such a case, both the target sound spectrum template of the learning target sound signal and the noise spectrum template of the learning noise signal may be estimated from the learning mixed signal.
  • the learning mixed sound is configured by mixing a sound signal corresponding to the target sound and a sound signal corresponding to noise. For example, if the target sound is a singing voice, a certain sound signal including a singing voice and an accompaniment sound is a mixed sound signal, and if the target sound is a voice such as speech, the sound signal including background noise is mixed. It is a sound signal.
  • the mixed sound signal to be observed is a mixed sound signal including a female vocal singing voice
  • an observation spectrum in one frame is acquired from the mixed sound signal to be observed.
  • An observation spectrum is a spectrum waveform showing the relationship between the frequency of a signal in one frame obtained from a mixed sound signal and the power spectrum.
  • a plurality of gain change spectrum templates obtained by changing gains of one or more target sound spectrum templates and gains of one or more noise spectrum templates constituting one or more stochastic spectrum templates, and the observed spectrum
  • the gain change spectrum template having the smallest distance is determined as the minimum distance gain change spectrum template.
  • the mixing ratio is estimated based on the gain of the minimum distance gain change spectrum template and the gain of the noise spectrum template.
  • the quasi-Newton method can be used for optimization for determining the gain.
  • the mixing ratio (S / N ratio) of the mixed sound signal of one frame is estimated.
  • Gs / Gn is the mixing ratio of the mixed sound signal of one frame.
  • the present invention it is possible to recognize the mixing ratio as it is without separating the spectrum in which the target sound (speech, singing voice, etc.) is mixed with other noises (accompaniment sound, etc.).
  • the target sound and noise sound constituting the mixed sound are separated in order to recognize the mixed sound, and then compared with the conventional technique of recognizing the separated sound.
  • the estimation accuracy can be improved.
  • the S / N ratio is estimated for each frame of the mixed sound signal, there is an advantage that it is robust against noise fluctuations.
  • the target sound spectrum template is determined by the product of the driving sound source function and the voice envelope template.
  • the driving sound source function is a filter that indicates a frequency component of a standard spectrum of a harmonic structure of a sound signal having a harmonic structure such as a voiced sound signal.
  • the fundamental frequency F0 of the driving sound source function is estimated at the same time when the minimum distance gain change spectrum template is determined.
  • the above-described quasi-Newton method can also be used when estimating the fundamental frequency F0.
  • the driving sound source function since the spectrum envelope of the spectrum of the target sound signal is not estimated, there is an advantage that a sound having a harmonic structure can be expressed as it is.
  • the target sound spectrum template is an audio spectrum template. If the sound signal having the harmonic structure is a voiced sound signal, the target sound spectrum template is determined by the product of the driving sound source function indicating the frequency component of the standard spectrum of the harmonic structure of the voiced sound signal and the sound envelope template. It is done. If the target sound signal is an unvoiced sound signal, the target sound spectrum template is a voice envelope template.
  • the speech envelope template is a plurality of peaks in power included in a plurality of frequency spectrum waveforms indicating a relationship between frequency components and power obtained by frequency analysis of a learning sound signal collected for a target voiced or unvoiced sound. It is a template which shows the distribution state of the envelope which connects.
  • the power spectrum probability distribution is preferably represented by a lognormal distribution at each frequency. If the logarithmic normal distribution is used, calculation for estimation becomes easy.
  • a plurality of target sound spectrum templates may be prepared in advance.
  • the mixing ratio of the mixed sound signal to be observed can be estimated with higher accuracy than in the past. If the driving sound source function is used when the target sound is a voiced sound, the fundamental frequency F0 of the driving sound source function can be estimated simultaneously when determining the minimum distance gain change spectrum template.
  • the mixing ratio estimation system that implements the mixing ratio estimation method of the present invention includes a spectrum template storage unit, a stochastic spectrum template creation unit, an observation spectrum acquisition unit, a determination unit, and a mixing ratio estimation unit.
  • the spectrum template storage unit includes one or more target sound spectrum templates indicating the relationship between the frequency distribution of one or more learning target sound signals and the probability distribution of the power spectrum, the frequency component of one or more learning noise signals, and the power spectrum.
  • One or more noise spectrum templates indicating a probability distribution relationship are stored.
  • the stochastic spectrum template creation unit creates one or more stochastic spectrum templates by combining one or more target sound spectrum templates and one or more noise spectrum templates.
  • the observation spectrum acquisition unit acquires an observation spectrum in one frame from the mixed sound signal. Then, the determination unit has the smallest distance between the observed spectrum and a plurality of gain-change spectrum templates obtained by changing the gain of the target sound spectrum template and the gain of the noise spectrum template that respectively constitute one or more stochastic spectrum templates.
  • the gain change spectrum template is determined as the minimum distance gain change spectrum template.
  • the estimation unit estimates the mixture ratio based on the gain of the minimum distance gain change spectrum template and the gain of the noise spectrum template.
  • the system of the present invention may include a template generation unit that generates one or more target sound spectrum templates and one or more noise spectrum templates.
  • the template generation unit when the target sound signal is a voiced sound signal having a harmonic structure, a target sound spectrum template, a driving sound source function indicating a frequency component of a standard spectrum of the harmonic structure of the voiced sound signal, and a sound If the target sound signal is determined as a product of the envelope template and the target sound signal is an unvoiced sound signal, the voice envelope template can be used as the target sound spectrum template.
  • the template generation unit may be configured to estimate both the target sound spectrum template and the noise spectrum template from the learning mixed signal.
  • the phoneme corresponding to the minimum distance gain change spectrum template obtained by the mixing ratio estimation method in the mixed sound signal is determined as a phoneme of one frame. Then, the type of speech is determined based on the determined continuity of phonemes of a plurality of frames.
  • continuity of phonemes in frames means a property indicating the tendency of the same phonemes to appear continuously in a plurality of frames in an actual signal.
  • FIG. 1 It is a block diagram which shows the structure of an example of the phoneme recognition system provided with embodiment of the mixing ratio estimation system of the mixed sound signal of this invention which implements the mixing ratio estimation method of the mixed sound signal of this invention. It is a flowchart which shows the algorithm of the program used when implement
  • or (c) is a figure used in order to demonstrate the production
  • (A) to (d) show the process of generating the stochastic spectrum template Y f based on the speech spectrum templates v and f and the noise spectrum template, and the stochastic spectrum templates Y n and f and the observed spectrum y (f)
  • FIG. 1 is a block diagram showing a configuration of an example of a phoneme recognition system including an embodiment of a mixed sound signal mixing ratio estimation system according to the present invention that implements a mixed sound signal mixing ratio estimation method according to the present invention.
  • FIG. 2 is a flowchart showing an algorithm of a program used when the embodiment of FIG. 1 is realized using a computer.
  • FIG. 3 is a diagram used for explaining a generation process of a voice spectrum template as a target sound spectrum template when the target sound is voice.
  • FIG. 4 illustrates a process of generating a stochastic spectrum template based on a speech spectrum template and a noise spectrum template and a process of obtaining a distance (likelihood) between the stochastic spectrum template and the observed spectrum.
  • FIG. 1 is a block diagram showing a configuration of an example of a phoneme recognition system including an embodiment of a mixed sound signal mixing ratio estimation system according to the present invention that implements a mixed sound signal mixing ratio estimation method according to the present invention.
  • FIG. 2
  • the mixture ratio estimation system 1 includes a template generation unit 2, a spectrum template storage unit 3, a stochastic spectrum template creation unit 9, an observed spectrum acquisition unit 14, a determination unit 15, and a mixture ratio estimation unit. 25.
  • the template generation unit 2 generates a target sound spectrum template and a noise spectrum template.
  • the template generation unit 2 employed in the present embodiment is configured to be able to perform either of the two generation methods. When the first generation method is performed, the template generation unit 2 adjusts the target sound signal.
  • the target sound spectrum template is determined by the product of the driving sound source function indicating the frequency component of the standard spectrum of the harmonic structure of the voiced sound signal and the voice envelope template when the voice sound signal has a wave structure; If the sound signal is an unvoiced sound signal, a speech envelope template is used as the target sound spectrum template.
  • the template generation unit 2 is configured to estimate both the target sound spectrum template and the noise spectrum template from the learning mixed signal. The first and second generation methods will be described in detail later.
  • the spectrum template storage unit 3 includes a target sound spectrum template storage unit 5 that stores the target sound spectrum template generated by the template generation unit 2 and a noise / spectrum template storage unit 7 that stores a noise / spectral template generated by the template generation unit 2. It consists of and.
  • the target sound spectrum template storage unit 5 includes a plurality of target sound spectrum templates prepared in advance based on a plurality of learning target sound signals (specifically, “speech spectrum template v in order to be used for phoneme recognition in the present embodiment). , F ").
  • the target sound spectrum template is a probability distribution (probability density) of frequency components and power spectra of a plurality of learning target sound signals created based on a plurality of learning target sound signals.
  • the template is a plurality of target sound spectrum templates.
  • the one or more learning target sound signals are one or more learning sound signals collected according to the target sound.
  • the target sound is speech
  • voiced sounds such as vowels and consonants
  • unvoiced sounds are obtained from a plurality of human voice signals.
  • the learning target sound signal may be divided into types such as a male voice signal, a female voice signal, and a child voice signal.
  • the one or more learning noise signals are sound signals other than the sound signal of the target sound included in the target mixed sound signal.
  • the learning noise sound is appropriately selected in consideration of the type of noise sound included in the target mixed sound signal. For example, if there is a sound signal only for a singing voice, the sound signal only for this singing voice becomes a learning target sound signal, and if there is a sound signal only for accompaniment, the sound signal only for this accompaniment becomes a learning noise signal.
  • the learning mixed sound signal is a mixture of a sound signal corresponding to the target sound and a sound signal corresponding to noise. For example, if the target sound is a singing voice, a certain sound signal including a singing voice and an accompaniment sound is a mixed sound signal, and if the target sound is a voice such as speech, the sound signal including background noise is mixed. It is a sound signal.
  • the mixed sound signal to be observed is a mixed sound signal including a female vocal singing voice
  • a certain number of mixed sound signals are collected as learning mixed sound signals, and a plurality of learning target sound signals are obtained from each learning mixed sound signal. If a plurality of learning noise signals are acquired and a plurality of target sound spectrum templates and a plurality of noise spectrum templates are prepared, averaged learning data can be acquired. .
  • the template generation unit 2 sets the target sound spectrum template as the driving sound source function H (f; f 0 ) shown in FIG. 3B and the voice envelope template shown in FIG. It is generated by the product of Y ′ v and f .
  • the driving sound source function (f; f 0 ) is a filter indicating a frequency component of a standard spectrum of the harmonic structure of the voiced sound signal.
  • the fundamental frequency F 0 of the appropriate driving sound source function H (f; f 0 ) is simultaneously determined when optimizing the gains of the speech spectrum templates Y v and f and the noise spectrum template or the weight parameters g v and g n described later. Will be decided.
  • the speech envelope template Y ′ v, f includes frequency components obtained by frequency analysis of one or more learning target sound signals collected for the target sound (voiced sound or unvoiced sound). It is a template which shows the distribution state (probability density) of the envelope which connects the some peak in the power contained in the frequency spectrum waveform which shows the relationship of power.
  • the shading shown in the speech envelope template Y ′ v, f in FIG. 3A indicates the distribution state (probability density).
  • the voice envelope template Y ′ v, f is prepared for each target sound. In the case of phoneme recognition, a speech envelope template Y ′ v, f is prepared for every phoneme to be recognized.
  • the target sound is a voiced sound
  • the product of the driving sound source function H (f; f 0 ) and the speech envelope template Y ′ v, f shown in FIG. Is stored in the target sound spectrum template storage unit 5.
  • Driving sound source function H (f; f 0 ) and voice envelope template Y ′ v, f Is stored in an internal memory in the template generation unit 2, and the product of the two is executed by the calculation unit in the template generation unit 2.
  • the voice envelope template Y ′ v, f stored in the internal memory by the template generation unit 2 is stored in the target sound spectrum template storage unit 5 as the target sound spectrum template.
  • the noise spectrum template storage unit 7 stores one or more types of noise spectrum templates [see FIG. 4B].
  • the noise spectrum template is a template indicating the relationship between the frequency component of the learning noise signal and the probability distribution of the power spectrum.
  • the learning noise signal is a sound signal other than the sound signal of the target sound included in the mixed sound signal to be observed. Noise also varies depending on the type of mixed sound signal. Therefore, the learning noise sound is appropriately selected in consideration of the type of noise sound included in the target mixed sound signal. That is, it is preferable to create a noise spectrum template according to the type of the mixed sound signal (according to the type of music such as a pop music signal, a classical music signal such as an opera).
  • the template generator 2 creates a noise spectrum template based on the relationship between the frequency component of the learning noise signal and the probability distribution of the power spectrum, and stores it in the noise spectrum template storage unit 7.
  • a plurality of types of noise / spectrum templates are stored in the noise / spectrum template storage unit 7 in accordance with the type of mixed sound signal to be observed.
  • the shading shown in the noise spectrum template of FIG. 4B indicates the probability density.
  • the stochastic spectrum template creation unit 9 includes a combination unit 11 and a stochastic spectrum template storage unit 13.
  • the combination unit 11 includes one or more target sound spectrum templates stored in the target sound spectrum template storage unit 5 and one or more types of noise spectrum templates stored in the noise spectrum template storage unit 7.
  • One or more probabilistic spectral templates are created by combining them one by one. When there are 100 target sound spectrum templates (speech spectrum templates) and two noise spectrum templates, 200 stochastic spectrum templates are combined and combined by the combining unit 11. The 200 stochastic spectrum templates are stored in the stochastic spectrum template storage unit 13.
  • FIG. 4 (c) shows an example of probabilistic spectral template Y f.
  • the observed spectrum acquisition unit 14 performs frequency analysis on one frame signal obtained discretely from the mixed sound signal to be observed, and observes the observed spectrum y () indicating the relationship between the frequency and the power spectrum as shown in FIG. f) is obtained. Specifically, a Hanning window having a predetermined time width is used as one frame to acquire one frame signal from the mixed sound signal, and frequency analysis is performed to acquire an observation spectrum.
  • the determination unit 15 includes a selection unit 17, a distance calculation unit 19, a temporary storage unit 21, and a determination unit 23.
  • the selection unit 17 selects the stochastic spectrum templates from the stochastic spectrum template storage unit 13 in order.
  • the distance calculation unit 19 obtains the gain Gs (weight parameter g v ) of the target sound spectrum template and the gain G n (weight parameter g n ) of the noise spectrum template constituting one selected stochastic spectrum template.
  • a distance (likelihood) between a plurality of gain change spectrum templates Y ′ f and the observed spectrum y (f) is obtained, and a gain change spectrum template having the smallest distance is obtained as the minimum distance gain change spectrum template in the stochastic spectrum template.
  • Y ′ is determined as fmin .
  • the temporary storage unit 21 stores the minimum distance gain change spectrum template Y ′ fmin . After obtaining the minimum distance gain change spectrum template Y ′ fmin for all the stochastic spectrum templates stored in the stochastic spectrum template storage unit 13 and storing them in the temporary storage unit 21, the determination unit 23 performs a plurality of stochastic operations. The minimum distance gain change spectrum template Y ′ fmin having the shortest distance among the plurality of minimum distance gain change spectrum templates determined for the spectrum templates and stored in the temporary storage unit 12 is determined.
  • the estimation unit 25 performs mixing based on the gain Gs (weight parameter g v ) of the target sound spectrum template of the determined minimum distance gain change spectrum template Y ′ fmin and the gain G n (weight parameter g n ) of the noise spectrum template.
  • Gs gain parameter g v
  • G n gain parameter g n
  • the mixing ratio Gs / Gn of the mixed sound signal for one frame estimated by the estimation unit 25 is stored in the estimation result storage unit 27 together with the identification information (information specifying the type of phoneme) of the target sound spectrum template.
  • the phoneme recognition unit 29 determines a phoneme corresponding to the minimum distance gain change spectrum template as a phoneme of one frame. Then, the type of speech is determined based on the continuity of phonemes in the determined frame.
  • continuity of phonemes in frames means a property indicating the tendency of the same phonemes to appear continuously in a plurality of frames in an actual signal. For example, the length that one vowel continues in a singing voice may be 100 times or longer than one frame period.
  • the type of speech is determined based on the continuity of phonemes in frames. In this way, phoneme recognition can be performed without extracting only the audio signal from the mixed sound signal.
  • step ST1 a plurality of probability spectrum templates are created. Therefore, a stochastic spectrum template is created to execute step ST1. That is, a plurality of target sound spectrum templates prepared in advance based on a plurality of learning target sound signals and one or more types of noise spectrum templates prepared in advance based on a plurality of mixed sound signals for learning are combined and synthesized one by one. To create a plurality of stochastic spectral templates.
  • step ST2 an observation spectrum in one frame is acquired from the mixed sound signal.
  • step ST3 for each of a plurality (or theoretically even one) of stochastic spectrum templates, a plurality of gains obtained by changing the gain of the target sound spectrum template and the gain of the noise spectrum template constituting the stochastic spectrum template.
  • the gain change spectrum template that minimizes the distance between the gain change spectrum template and the observed spectrum is determined as the minimum distance gain change spectrum template.
  • step ST4 the gain of the target sound spectrum template and the noise spectrum template of the minimum distance gain change spectrum template having the smallest distance among the plurality of minimum distance gain change spectrum templates respectively determined for the plurality of stochastic spectrum templates. Based on the gain, the mixing ratio is estimated.
  • the lyrics express the content that the singer wants to convey with the singing voice
  • the fundamental frequency F0 expresses the melody of the music and at the same time expresses the skill and expression of the singer, and both are important elements constituting the singing voice. Therefore, the technology for automatically recognizing these elements from the mixed sound can be applied to music information retrieval and the like and is an important basic technology. For example, by recognizing the lyrics, it is possible to search for songs with unknown lyrics using the lyrics as clues.
  • the automatic phoneme recognition technology can be applied to temporal correspondence between lyrics and music, and can be applied to music players that display lyrics like karaoke, automatic creation of music video telops, and the like.
  • the estimation of the singing voice fundamental frequency (F0) can be applied to automatic transcription of vocal parts, humming search, and the like.
  • F0 the singing voice fundamental frequency
  • the accuracy of the Hamming search is improved by integrating the lyrics information into the Hamming search, and the range of application is further expanded by simultaneously estimating the lyrics and F0.
  • the singing voice has more fluctuations due to the vibrato, F0 variation range, singer's emotional expression, etc., and the accompaniment sound is superimposed at a louder volume than the speaking voice, so the singing voice (phoneme) is automatically recognized. Has a very difficult problem.
  • the inventors have so far studied the temporal association method between music and lyrics (the following papers 1 and 2) and the F0 estimation method for singing voices in mixed sounds (the following paper 3).
  • the singing voice is recognized by estimating the spectral envelope from the harmonic structure of the separated singing voice and calculating the distance between the spectral envelopes.
  • each harmonic component of the harmonic structure can be considered as a sample of frequency components that are integer multiples of F0 from the original spectral envelope, the original spectral envelope must be uniquely restored from the given harmonic structure. Was impossible in principle. For this reason, it is difficult to accurately calculate the distance, for example, when the width of the valley of each harmonic component of the harmonic structure is wide, such as a sound with a high F0.
  • the singing voice is not separated, and the spectral envelope is not estimated from a single harmonic structure, and the as-is shape in which accompaniment sounds are superimposed on the observed spectrum is stochastically modeled. Furthermore, in the learning process, the spectral envelope is estimated more accurately by using a plurality of harmonic structures.
  • the spectrum of the mixed sound signal including the singing voice is generated from a set of probability distributions.
  • the power appearing in each frequency bin (frequency analysis width) of the spectrum follows a certain probability distribution, and the probability distribution is different for each of the plurality of spectrum bins.
  • the stochastic spectrum template includes a voice (singing voice) spectrum template expressing a singing voice (FIG. 4 (a)) and a noise spectrum template expressing a sound other than the singing voice (FIG. 4 (b)). Can be expressed by addition on the linear axis.
  • the voice (singing voice) spectrum template represents the harmonic structure of the driving source and the voice (singing voice) envelope template (FIG. 3A) expressing the spectral envelope. It is considered to be generated by the product of the driving sound source function (Harmonic Filter) [Fig. 3 (b)].
  • the shape of the driving sound source function can be controlled using the value of the fundamental frequency F0 as a parameter.
  • F0 of the driving sound source function which is a parameter of the probability model, and the weights of the voice (singing voice) spectrum template and the noise spectrum template are determined
  • the likelihood (distance) for the probability model (probabilistic spectrum template) of the observed spectrum Can be calculated.
  • a speech (singing voice) envelope template Y ′ v, f [phoneme / a /, phoneme / b /,... Phoneme / o /.
  • F0 can be estimated by estimating the value of (close) F0.
  • a speech (singing voice) envelope template [phoneme / a /, phoneme / b /,... Phoneme / o / ..] expressing each phoneme.
  • a sound source function H (f i , f 0 ) and a plurality of speech (singing voice) spectrum templates (target sound spectrum templates) Y v, f representing the spectrum template of each phoneme are created.
  • a product of a plurality of speech (singing voice) spectrum templates Y v, f and a noise spectrum template Y n, f representing the spectrum template of each phoneme is taken (combined) to obtain a plurality of creating a plurality of probabilistic spectral template Y f for voice (vocal) spectral template.
  • the gain Gs (weight parameter g v) of the target sound spectrum template constituting each stochastic spectrum template )
  • the gain Gn (weight parameter g n ) of the noise spectrum template are changed to obtain a plurality of gain change spectrum templates Y ′ f for each phoneme. Then, the distance (likelihood) between the plurality of gain change spectrum templates Y ′ f and the observed spectrum y (f) for each phoneme is obtained, and the gain change spectrum template having the smallest distance is determined as the minimum in the stochastic spectrum template.
  • the distance gain changing spectrum template Y ′ fmin is determined.
  • the smallest distance gain change spectrum template Y ′ fmin for the phoneme is the one with the smallest distance (likelihood) among the plurality of gain change spectrum templates Y ′ f for each phoneme.
  • the distance is the smallest minimum distance gain changing spectral template Y' minimum distance gain changing spectral template Y Stochastic spectral template for all phonemes in fmin
  • the corresponding phoneme is determined as the recognized phoneme.
  • FIG. 6 shows an example of an algorithm of a program for obtaining the distance (likelihood) between the above-described gain-change spectrum template Y ′ f and the observed spectrum y (f) using a computer.
  • the initial value of the fundamental frequency F0 is set in step ST11
  • the gain of the speech spectrum template is set
  • the initial value of the gain of the noise spectrum template is set.
  • the optimum gain and F0 are estimated by a nonlinear optimization method such as a quasi-Newton method.
  • step ST13 the obtained gain and likelihood for the F0 value are calculated.
  • FIG. 7 shows an example of an algorithm for estimating the fundamental frequency F0 in step ST12.
  • a plurality of F0 candidates are estimated from the observed spectrum in step ST21.
  • a known estimation method such as a method using the value of the frequency peak of the observed spectrum or a method of estimating based on the response of the comb filter can be used.
  • step ST22 the following loop 1 is started for all F0 candidates.
  • step ST23 the following loop 2 is started for all speech spectrum templates.
  • step ST24 the following loop 3 is started for all speech spectrum templates.
  • step ST25 using the value of the F0 candidate as an initial value, the optimum F0 is calculated and stored based on the likelihood of the speech spectrum template, noise spectrum template, and observed spectrum. The optimum F0 is calculated using Step 0 to Step 3 in the description of “parameter estimation” described later. At this time, the value of the F0 candidate is used as the initial value of F0 given in Step 0.
  • step ST26 the loop 3 is terminated, and in step ST27, the loop 2 is terminated.
  • step ST28 the F0 value and the likelihood when the likelihood is the greatest in the loop 2 and the loop 3 are stored.
  • step ST29 loop 1 is terminated, and in step ST30, F0 having the highest likelihood in loop 1 is output as an estimation result.
  • FIG. 8 is a flowchart showing an example of a program algorithm used when the phoneme is estimated using a computer.
  • the following loop 1 is started for all phonemes in step ST31.
  • the following loop 2 is started for all speech spectrum templates of the phoneme.
  • the following loop 3 is started for all noise spectrum templates.
  • the likelihoods of the speech spectrum template, noise spectrum template, and observed spectrum are calculated and stored.
  • the loop 3 is terminated, and in step ST36, the loop 2 is terminated.
  • step ST37 the value having the highest likelihood in loop 2 and loop 3 is stored as the likelihood of this phoneme.
  • step ST38 loop 1 is terminated, and in step ST39, the phoneme having the highest likelihood in loop 1 is output as an estimation result.
  • a state in which noise (accompaniment sound) is mixed is expressed as it is without separating voice (singing voice).
  • This specific embodiment is a natural method from the viewpoint of human perception, considering that humans can recognize voices without separating voices (singing voices).
  • the system since the S / N ratio between voice (singing voice) and noise (accompaniment sound) can be estimated for each frame, the system is robust against fluctuations in noise (accompaniment sound). Furthermore, the system can be made more robust by preparing a plurality of noise spectrum templates and selecting the most likely one.
  • the system is robust even for sounds having high F0. Furthermore, in the present embodiment, it is possible to easily extend the sound (singing voice) spectrum template that does not use the driving sound source function for other sounds and sound sources such as unvoiced consonants without F0.
  • a lognormal distribution is used as the distribution of each frequency bin of the stochastic spectrum template.
  • Y f can be divided into two different spectral templates according to:
  • Yv, f represents the spectrum of the voice (singing voice) and is the aforementioned voice (singing voice) spectrum template.
  • Yn, f represents the spectrum of a sound (noise or accompaniment sound) other than voice (singing voice), and is the above-described noise spectrum template.
  • gv and gn are weights of the voice spectrum template and the noise spectrum template, and the S / N ratio of the voice (singing voice) and other sounds can be changed by changing them.
  • equation (1) it is assumed that the spectrum is additive on the linear axis. It is assumed that Yv , f and Yn, f follow a normal distribution (on the logarithmic frequency axis) as in the following equation.
  • N (y; ⁇ , ⁇ 2 ) is a normal distribution with mean ⁇ and variance ⁇ 2 .
  • the voice (singing voice) Y v, f having a harmonic structure is added on the logarithmic axis of the envelope probability model and the filter expressing the harmonic structure as shown in the following equation: (Fig. 3).
  • Y ′ v, f ⁇ N (y; ⁇ ′ v, f ; ⁇ 2 v, f ) is a random variable representing the spectral envelope of speech (singing voice), and is the above-mentioned speech (singing voice) envelope template.
  • H (f; f 0 ) represents a filter having a value F 0 of f 0 and is called a driving sound source function.
  • the driving sound source function H (f; f 0 ) is not a random variable.
  • Equation (12) is a weighted addition of x 1 and x 2
  • Equation (12) is a weighted addition of x 1 and x 2
  • the stochastic spectrum template Y f is expressed as follows:
  • u f and ⁇ 2 f are defined by equations (16) and (17), respectively.
  • the quasi-Newton method is a kind of hill-climbing method, and it updates parameters repeatedly.
  • the objective function Q ( ⁇ ) to be minimized is
  • the objective function is approximated by a quadratic Taylor expansion around the current parameter, and the parameter is updated sequentially.
  • the Newton method assumes that the Hessian of the second derivative necessary for calculating the second-order Taylor expansion is positive definite, but this assumption does not necessarily hold.
  • stable optimization can be achieved by numerically approximating the change of the first derivative by updating the parameter without using the Hessian matrix directly, as shown in the following equation. is there.
  • k represents the number of iterations.
  • the parameters can be optimized as follows.
  • Step 1 Update ⁇ (k + 1) by the following formula.
  • ⁇ (k) The value of ⁇ (k) is determined by linear search.
  • Step 2 Update B (k + 1) using equation (21).
  • Step IV3 Return to step 1.
  • the voice (singing voice) envelope template Y v, f and the noise spectrum template Y n, f in the equation (4) are estimated from the learning data.
  • the spectrum of a voice having a harmonic structure (singing voice) can be considered as a sample of frequency component points that are integer multiples of the fundamental frequency with respect to the true spectral envelope. For this reason, since the observed spectrum (harmonic structure) and the spectrum envelope that is the source of the spectrum can be in a one-to-many relationship, it is difficult to estimate the true spectrum envelope from the harmonic structure of a single frame. Therefore, in the present embodiment, a highly reliable spectral envelope is estimated by using a harmonic structure of a plurality of frames having different F0 values.
  • the spectral envelope is not uniquely determined but estimated as a probability distribution, it is robust against fluctuations in singing voice and differences between learning data and test data.
  • this embodiment solves this problem by introducing a parameter for normalizing the volume of each frame and estimating it as an unknown parameter.
  • Gm (f; ⁇ m , ⁇ m , ⁇ 2 m ) is the output of the gate function, and a normalized Gaussian function defined by the following equation was used.
  • This normalized Gaussian function is described in Xu, L., Jordan, MI and Hinton, GE, “An alternative model for combinations of experts”, Advances in Neural Information Processing Systems 7, pp. 633-640 (1994). ing.
  • the unknown parameters are ⁇ m , ⁇ m , ⁇ 2 m , a m , b m , ⁇ 2 m ⁇ and can be estimated by the EM (Expectation and Maximization) method.
  • k i is an offset parameter that normalizes the volume of each harmonic structure. Since it is difficult to simultaneously optimize the parameters of the mixed regression model and k i , they are updated iteratively.
  • the parameters are estimated by the following procedure.
  • Step 1 Estimate the parameters of the mixed regression model using the EM method.
  • Step 2 Update k i by the following formula.
  • FIG. 9 is an example of a parameter estimation process.
  • FIG. 9 shows an example of the process of parameter estimation of the mixed regression model.
  • the thick line at the center of each figure represents the average of the mixed regression model, and the two thin lines above and below it represent the standard deviation.
  • the fine points on the background represent the harmonic components of the learning data, and the plurality of peaks at the bottom of the figure represent the gate function G m (f; ⁇ m , ⁇ m , ⁇ 2 m ). From the figure, it can be seen that by repeating the update, the offset parameter k i for each harmonic structure of the learning data is optimized, and a regression curve with less variance is estimated.
  • FIG. 10 shows a flowchart of an algorithm of a program used when this parameter estimation is performed by a computer.
  • step ST41 parameters are initialized. For initialization of parameters, learning data and a plurality of harmonic structures (each harmonic F0 and power) are used.
  • step ST43 using the current offset parameter and the parameters of each mixed regression model, the belonging probability for each mixed regression model of the harmonic structure of the learning data is calculated.
  • the parameters of each mixed regression model are estimated by the EM algorithm using each mixed regression model using the current offset parameter and the belonging probability for the parameter of each mixed regression model.
  • step ST45 the offset parameter is updated.
  • step ST46 it is determined whether t has exceeded a certain number of times. If Yes, the process ends in step ST48, and if No, loop 1 is repeated.
  • the learning target sound signal and the learning noise signal to be used are obtained separately.
  • the learning target sound signal and the learning noise signal may not be easily available. Therefore, in such a case, both the target sound spectrum template of the learning target sound signal and the noise spectrum template of the learning noise signal can be estimated from the learning mixed signal.
  • This estimation can be realized by changing the configuration of the template generation unit 2 in FIG.
  • the learning mixed sound is configured by mixing a sound signal of a type to which the target sound belongs and a sound signal corresponding to noise. If the mixed sound signal to be observed is a mixed sound signal including a female vocal singing voice, a mixed sound signal including a female vocal singing voice is used as one or more learning mixed sound signals.
  • FIG. 11 shows an algorithm of a program used when the template generation unit 2 is realized using a computer.
  • step ST51 parameters are initialized. As a premise, it is assumed that I observation spectra y 1 (f), ⁇ , y i (f), ⁇ , y I (f) are observed.
  • the addition of the lognormal distribution is approximately calculated using the first-order Taylor expansion.
  • the obtained equations (15) to (17) have complicated shapes, and it is difficult to optimize the target sound (speech) spectrum template ⁇ v and the noise spectrum template ⁇ n . Therefore, in this embodiment, an approach is taken in which the parameter is approximately estimated after the addition of the lognormal distribution is strictly calculated according to the definition. If the probability density function of the spectrum template after synthesis is written as p i, f (y; ⁇ v , ⁇ n , g i, v , g i, n ), [the probability density function of each observed spectrum number i is Since the shapes are different, the subscript i is added. ], The objective function L is expressed as follows.
  • g i, v and g i, n are the offset parameters (weights) for normalizing the sound volume between frames in the same manner as the offset parameters k i of the previous embodiment. Further, g i, v and g i, n also have a role of adjusting the SIR (Signal-to-Interference Ratio) of the voice (singing voice) envelope template and the noise spectrum template. In the actual implementation, the continuous wavelet transform is calculated discretely with respect to the frequency axis, so the integral over f is replaced with a sum operation.
  • the parameters to be estimated here are ⁇ g i, v , g i, n , ⁇ v , ⁇ n ⁇ . Since it is difficult to optimize all these parameters at the same time, they are optimized sequentially.
  • step ST52 the weight g i, n and the noise spectrum template ⁇ n are fixed, and the weight g i, v and the noise spectrum template ⁇ v are optimized by the above equation (31).
  • step ST56 Consider that the weight g i, v and the target sound spectrum template ⁇ v are fixed and the optimization of the weight g i, n and the target sound spectrum template ⁇ n according to the equation (32) is repeated alternately.
  • step ST52 if g i, n and ⁇ n are fixed, the inside of the sum of equation (31) can be considered as the calculation of the expected value. Therefore, the calculation of the expected value of the sample U (the calculation including the integral of the normal distribution) is approximated by the calculation of the sum by sampling.
  • sampling means approximating the integral relating to the distribution with the sum of many points, as schematically shown in FIG. This sampling allows approximate optimization of g i, v and ⁇ v .
  • the value of R is set to 300.
  • weights g i, n and noise spectrum template ⁇ n are fixed, ⁇ i, r, f and (log (exp (y i (f)) ⁇ exp (U i, r, f )) are constants. Therefore, the weight g i, v and the target sound spectrum template ⁇ v can be optimized using the equation (33) (step ST51 to step ST55), and the weight g i, v and the target sound spectrum template ⁇ v. Is the same, and the same equation as the equation (33) is derived from the equation (31) by sampling, and the weights g i, n and the noise spectrum template ⁇ n are optimized (step ST56 to step ST59). .
  • Equation (33) is in the form of the logarithm (log) of the sum ( ⁇ ), direct optimization is still difficult. Therefore, Equation (33) is iteratively optimized by an iterative method similar to the EM algorithm.
  • z i, r, f calculated using ⁇ ′ is set as z ′ i, r, f (step ST4).
  • z i, r, f are fixed, and the following new objective function Q 1 ( ⁇
  • an operation for optimizing the objective function with respect to ⁇ 1 and an operation for recalculating z i, r, f using the optimized ⁇ 2 are repeated (repeatedly repeating steps ST53 to ST55).
  • the function L can be maximized. The number of repetitions may be at least once. If you look closely at equation (36), you can see that ⁇ i, r, f is irrelevant to optimization. Therefore, it can be seen that the optimization of the following function Q 2 ( ⁇
  • Q 2 has the same form as equation (27) except for the existence of the constant term z. Therefore implementing optimization Q 2 'functions of the above formula (37) (step ST54). That is, as in the case of the template estimate from a single learning target sound signal described in the above embodiment and training noise signal, Q 2 function it can be seen that the optimization.
  • step ST56 the same expression as the expression (33) is derived by sampling from the expression (31), the weight g i, n and the noise spectrum
  • the template ⁇ n is optimized (step ST56 to step ST59).
  • steps ST52 to ST59 are repeated a predetermined number of times (step ST60)
  • the process ends. This iteration may be at least once.
  • Step ST52 g i, n and ⁇ n are fixed, and U in Expression (31) is sampled.
  • Step ST53 Using the sampled U and the current parameters g i, v , ⁇ v , z i, r, f in equation (35) is calculated.
  • Step ST54 Step ST53 Using the calculated z i, r, f , the Q 2 function of Expression (37) is optimized. This optimization uses an iterative optimization method.
  • Step ST55 If the number of repetitions of step ST52 to step 54 has exceeded the specified number, return to step ST56, otherwise return to step ST52.
  • Step ST56 G i, v and ⁇ v are fixed, and U in Expression (31) is sampled.
  • Step ST57 Using the sampled U and the current parameters g i, n , ⁇ n , z i, r, f in equation (35) is calculated.
  • Step ST58 The calculated z i, r, using f, to optimize the Q 2 function of Equation (37). An iterative optimization method is also used for this optimization.
  • Step ST59 If the number of repetitions of steps ST57 to ST58 has exceeded the specified number, return to step ST60, otherwise return to step ST57.
  • Step ST60 When the repetition of steps ST52 to ST59 exceeds the specified number of times, the process is terminated. Otherwise, the process returns to step ST52.
  • the initial value of the target sound spectrum template is obtained from the target target sound signal to be observed (for example, if the target sound is a song, it is obtained from the acoustic signal of a single singer different from the singer of the target sound. May use the values of the parameters estimated in the previous embodiment from the music acoustic signal (for example, karaoke track) that does not contain a singing voice.
  • a spectrum in a state where the target sound (voice, singing voice, etc.) is mixed with other noise (accompaniment sound, etc.) can be recognized as it is without being separated.
  • the target sound voice, singing voice, etc.
  • other noise accommodation sound, etc.
  • S / N ratio is estimated for each frame of the mixed sound signal, there is an advantage that it is robust against noise fluctuations.

Abstract

 混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供する。確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

Description

混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
 本発明は、混合音信号中の対象音信号とノイズ信号との混合比率を推定する混合音信号の混合比率推定方法及びシステム並びに音素認識方法に関するものである。
 従来は、混合音信号中の対象音信号とノイズ信号との混合比率(S/N比)が既知であることを前提にして、音響信号中に含まれる音声を認識する技術や、音素認識技術において、認識精度を高める技術が提案されている(非特許文献1)。
Gales、 M. J.F. and Yound、 S.「 An improved approach to the hidden Markov model decomposition of speech and noise」、 Proceedings of the 1997 IEEE International Conference on Acoustics、 Speech、 and Signal Processing (ICASSP 1997)、 pp.835-838 (1997)
 従来は、混合比率(S/N比)が既知であることを前提にするため、混合音信号に含まれるノイズ信号の変動量が大きくなると、混合比率の推定精度が悪くなる問題があった。
 本発明の目的は、混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供することにある。
 上記目的に加えて、本発明の他の目的は、有声音信号の混合比率を推定する際に、基本周波数F0も一緒に推定することができる混合音信号の混合比率推定方法を提供することにある。
 本発明の他の目的は、推定した混合比率を用いて音素認識を行う音素認識方法を提供することにある。
 本発明は、混合音信号から離散的に取得した1フレーム信号に含まれる対象音信号とノイズ信号との混合比率を、コンピュータを用いて推定する混合音信号の混合比率推定方法を改良の対象とする。本願明細書において、対象音信号には、音声信号(歌声信号を含む)や楽器の音響信号等が含まれる。またノイズ信号は、混合音信号に含まれる対象音信号以外の信号を言う。また「離散的に取得した1フレーム信号」とは、所定の時間幅のハニング窓を1フレームとして用いて混合音信号から取得した信号である。
 本発明では、1以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上の対象音スペクトルテンプレートを用意する。また1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートを用意する。そして1以上の対象音スペクトルテンプレートと1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成する。
 本願明細書において、音声(歌声を含む)等を含む混合音信号のスペクトルが存在する確率分布の集合を確率的スペクトルテンプレート(Probabilistic_Spectral Template)と呼ぶ。
 ここで学習用対象音信号とは、対象音に応じて集めた1以上の学習用の音信号である。例えば対象音が音声の場合には、母音、子音等の有声音、無声音などの単音の音信号が、学習用対象音信号となる。精度を高めるためには、複数の人の音声信号から複数の単音の音信号を学習用対象音信号として取得するのが好ましい。観測する混合音信号に応じて、男の音声信号、女の音声信号、子供の音声信号などの種類に分けて複数種類の学習用対象音信号を用いてもよい。また対象音が弦楽器の楽器音の場合には、ある弦楽器の単音の音信号が学習用対象音信号となり、対象音が打楽器の楽器音の場合には、ある打楽器の単音の音信号が学習用対象音信号となる。
 また本願明細書において、学習用ノイズ信号は、対象となる混合音信号に含まれる対象音の音信号以外の音信号である。歌声を含む楽曲の楽曲信号が混合音信号であれば、歌声が対象音で、背景の伴奏音がノイズ音となる。したがって学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定されることになる。歌声だけの音信号があれば、この歌声だけの音信号が学習用対象音信号となり、また伴奏だけの音信号があれば、この伴奏だけの音信号が学習用ノイズ信号となる。このような学習用対象音信号及び学習用ノイズ信号は、それぞれ個別に入手することになる。
 しかし学習対象音信号及び学習用ノイズ信号が、簡単に入手できない場合もある。そこでこのような場合には、学習用対象音信号の対象音スペクトルテンプレートと学習用ノイズ信号のノイズ・スペクトルテンプレートを、共に学習用混合信号から推定してもよい。この場合、学習用混合音とは、対象音に相当する音の信号とノイズに相当する音の信号が混合されて構成されたものである。例えば、対象音が歌声であれば、歌声と伴奏音を含む、ある音信号が混合音信号であり、対象音がスピーチ等の音声であれば、その音声と背景の雑音を含む音信号が混合音信号である。
 観察対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、1以上の学習用混合音信号として、女性のボーカル歌声を含む混合音信号を用いるのが好ましい。観測する混合音信号とは種類が異なる音信号であっても、ある程度の数の混合音信号を学習用混合音信号として集めて、それぞれの学習用混合音信号から、複数の対象音スペクトルテンプレート及び複数のノイズ・スペクトルテンプレートを推定すれば、平均化された学習データが取得できるので、精度の低下には大きな問題は生じない。
 本発明の方法では、観測する混合音信号から1フレーム中の観測スペクトルを取得する。観測スペクトルとは、混合音信号から得た1フレーム中の信号の周波数とパワースペクトルとの関係を示すスペクトル波形である。そして本発明では、1以上の確率的スペクトルテンプレートを構成する1以上の対象音スペクトルテンプレートのゲインと1以上のノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。そして最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。
 なおゲイン決定のための最適化には、準ニュートン法を用いることができる。決定された最小距離ゲイン変更スペクトルテンプレートの対象音スペクトルテンプレートのゲインGsとノイズ・スペクトルテンプレートのゲインGnに基づいて、1フレームの混合音信号の混合比率(S/N比)を推定する。具体的には、Gs/Gnが、1フレームの混合音信号の混合比率となる。
 本発明によれば、対象音(音声、歌声等)がその他のノイズ(伴奏音等)と混ざった状態のスペクトルを、分離せずそのまま混合比率を認識することができる。本発明によれば、背景のノイズに関する情報も活用するため、混合音を認識するために混合音を構成する対象音及びノイズ音を分離し、その後分離した音を認識するという従来の技術と比べて、推定精度を向上させることができる。また本発明によれば、混合音信号について各フレームでS/N比の推定を行うので、ノイズの変動に対してロバストになるという利点がある。
 対象音信号が有声音信号のように調波構造を有する音信号であれば、対象音スペクトルテンプレートは駆動音源関数と音声包絡テンプレートとの積により定められる。駆動音源関数は、有声音信号のように調波構造を有する音信号の調波構造の標準的なスペクトルの周波数成分を示すフィルタである。なお駆動音源関数を用いる場合には、最小距離ゲイン変更スペクトルテンプレートを決定する際に、同時に駆動音源関数の基本周波数F0を推定する。基本周波数F0を推定する場合にも、前述の準ニュートン法を用いることができる。駆動音源関数を用いると、対象音信号のスペクトルのスペクトル包絡を推定しないため、調波構造を持つ音をそのまま表現できるという利点が得られる。
 対象音信号が音声信号であれば、対象音スペクトルテンプレートは音声スペクトルテンプレートである。そして調波構造を有する音信号が有声音信号であれば、対象音スペクトルテンプレートは有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定められる。また対象音信号が無声音信号であれば、対象音スペクトルテンプレートは音声包絡テンプレートである。ここで音声包絡テンプレートは、対象とする有声音または無声音について収集した学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す複数の周波数スペクトル波形に含まれるパワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートである。
 パワースペクトルの確率分布は、各周波数において対数正規分布で表されているのが好ましい。対数正規分布で表されていれば、推定のための演算が容易になる。
 なお対象音の種類が判っていない場合には、予め対象音スペクトルテンプレートを複数用意すればよい。
 本発明によれば、観測する混合音信号の1フレーム単位の混合比率を従来よりも高い精度で推定することができる。また対象音が有声音の場合に駆動音源関数を用いると、最小距離ゲイン変更スペクトルテンプレートを決定する際に、同時に駆動音源関数の基本周波数F0を推定することができる。
 本発明の混合比率推定方法を実施する混合比率推定システムは、スペクトルテンプレート記憶部と、確率的スペクトルテンプレート作成部と、観測スペクトル取得部と、決定部と、混合比率推定部とを備えている。
 スペクトルテンプレート記憶部は、1以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上の対象音スペクトルテンプレートと、1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートとを記憶する。確率的スペクトルテンプレート作成部は、1以上の対象音スペクトルテンプレートと1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成する。観測スペクトル取得部は、混合音信号から1フレーム中の観測スペクトルを取得する。そして決定部は、1以上の確率的スペクトルテンプレートをそれぞれ構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。推定部は、最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。
 本発明のシステムは、1以上の対象音スペクトルテンプレート及び1以上のノイズ・スペクトルテンプレートを生成するテンプレート生成部を備えていてもよい。テンプレート生成部は、対象音信号が調波構造を有する有声音信号であるときに、対象音スペクトルテンプレートを、有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、且つ対象音信号が無声音信号であれば、対象音スペクトルテンプレートとして音声包絡テンプレートを用いるように構成することができる。
 またテンプレート生成部は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成してもよい。
 本発明の音素認識方法では、混合音信号中の混合比率推定方法により求めた、最小距離ゲイン変更スペクトルテンプレートに対応する音素を1フレームの音素と決定する。そして決定された複数のフレームの音素の連続性に基づいて音声の種類を決定する。ここで「フレームの音素の連続性」とは、実際の信号において、同じ音素が複数のフレームで連続して現れる傾向を示す性質を意味する。
本発明の混合音信号の混合比率推定方法を実施する本発明の混合音信号の混合比率推定システムの実施の形態を備えた音素認識システムの一例の構成を示すブロック図である。 図1の実施の形態を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 (a)乃至(c)は、対象音が音声の場合における対象音スペクトルテンプレートとしての音声スペクトルテンプレートの生成過程を説明するために用いる図である。 (a)乃至(d)は、音声スペクトルテンプレートv、fとノイズ・スペクトルテンプレートとに基づいて確率的スペクトルテンプレートYfを生成する過程と、確率的スペクトルテンプレートYn、fと観測スペクトルy(f)との間の距離(尤度)を求める過程を説明するために用いる図である。 音素認識方法の概要を示す図である。 コンピュータを用いてゲイン変更スペクトルテンプレートY′と観測スペクトルy(f)との距離(尤度)を求めるプログラムのアルゴリズの一例を示す図である。 図6のステップST12における基本周波数F0の推定のアルゴリズムの一例を示す図である。 音素の推定をコンピュータを用いて行う場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。 (a)乃至(d)は、パラメータの推定過程の例を示す図である。 パラメータ推定をコンピュータで実施する場合に用いるプログラムのアルゴリズムのフローチャートである。 学習用混合音信号から対象音スペクトルテンプレートとノイズ・スペクトルテンプレートを推定するためのアルゴリズムを示すフローチャートである。 サンプリングの概念を模式的に示す図である。
 図1は、本発明の混合音信号の混合比率推定方法を実施する本発明の混合音信号の混合比率推定システムの実施の形態を備えた音素認識システムの一例の構成を示すブロック図である。図2は、図1の実施の形態を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。また図3は、対象音が音声の場合における対象音スペクトルテンプレートとしての音声スペクトルテンプレートの生成過程を説明するために用いる図である。図4は、音声スペクトルテンプレートとノイズ・スペクトルテンプレートとに基づいて確率的スペクトルテンプレートを生成する過程と、確率的スペクトルテンプレートと観測スペクトルとの間の距離(尤度)を求める過程を説明するために用いる図である。
 本実施の形態の混合比率推定システム1は、テンプレート生成部2と、スペクトルテンプレート記憶部3と、確率的スペクトルテンプレート作成部9と、観測スペクトル取得部14と、決定部15と、混合比率推定部25とを備えている。テンプレート生成部2は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを生成する。本実施の形態で採用するテンプレート生成部2は、2つの生成方法のいずれかを実施できるように構成されている、第1の生成方法を実施する場合、テンプレート生成部2は対象音信号が調波構造を有する有声音信号であるときに、対象音スペクトルテンプレートを、有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、且つ対象音信号が無声音信号であれば、対象音スペクトルテンプレートとして音声包絡テンプレートを用いるように構成される。第2の生成方法を実施する場合、テンプレート生成部2は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成されている。なおこれら第1及び第2の生成方法については後に詳しく説明する。
 スペクトルテンプレート記憶部3は、テンプレート生成部2が生成した対象音スペクトルテンプレートを記憶する対象音スペクトルテンプレート記憶部5とテンプレート生成部2が生成したノイズ・スペクトルテンプレートを記憶するノイズ・スペクトルテンプレート記憶部7とから構成されている。対象音スペクトルテンプレート記憶部5は、複数の学習用対象音信号に基づいて予め用意した複数の対象音スペクトルテンプレート(本実施の形態では音素認識に使用するため、具体的には「音声スペクトルテンプレートv、f」)を記憶している。例えば、図3(c)に示すように、対象音スペクトルテンプレートは、複数の学習用対象音信号に基づいて作成した複数の学習用対象音信号の周波数成分とパワースペクトルの確率分布(確率密度)の関係を示すテンプレートである。例えば、対象音が音声信号の場合には、母音及び子音の有声音、無声音などの学習用の複数の単音信号について、それぞれ得た周波数成分とパワースペクトルの確率分布(確率密度)の関係を示すテンプレートが、複数の対象音スペクトルテンプレートである。
 ここで1以上の学習用対象音信号とは、対象音に応じて集めた1以上の学習用の音信号であり、例えば対象音が音声の場合には、母音、子音等の有声音、無声音などの単音の音信号であり、複数の人の音声信号から取得したものである。観測対象の混合音信号に応じて、男の音声の音声信号、女の音声の音声信号、子供の音声の音声信号などの種類に分けて学習用対象音信号を用いてもよい。また1以上の学習用ノイズ信号は、対象となる混合音信号に含まれる対象音の音信号以外の音信号である。学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定される。例えば、歌声だけの音信号があれば、この歌声だけの音信号が学習用対象音信号となり、また伴奏だけの音信号があれば、この伴奏だけの音信号が学習用ノイズ信号となる。
 また学習用混合音信号とは、対象音に相当する音の信号とノイズに相当する音の信号が混合されて構成されたものである。例えば、対象音が歌声であれば、歌声と伴奏音を含む、ある音信号が混合音信号であり、対象音がスピーチ等の音声であれば、その音声と背景の雑音を含む音信号が混合音信号である。
 観測対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、1以上の学習用混合音信号として女性のボーカル歌声を含む混合音信号を用いるのが好ましい。しかしながら観測の混合音信号とは種類が異なる音信号であっても、ある程度の数の混合音信号を学習用混合音信号として集めて、それぞれの学習用混合音信号から複数の学習用対象音信号及び複数の学習用ノイズ信号を取得して、複数の対象音スペクトルテンプレート及び複数のノイズ・スペクトルテンプレートを用意すれば、平均化された学習データが取得できるので、精度の低下に大きな問題は生じない。
 対象音信号が有声音信号であれば、テンプレート生成部2は、対象音スペクトルテンプレートを図3(b)に示す駆動音源関数H(f;f0)と図3(a)に示す音声包絡テンプレートY′v,fとの積により生成する。駆動音源関数(f;f0)は、有声音信号の調波構造の標準的なスペクトルの周波数成分を示すフィルタである。適切な駆動音源関数H(f;f0)の基本周波数F0は、音声スペクトルテンプレートYv、fとノイズ・スペクトルテンプレートのゲインまたは後述する重みパラメータgv、gnの最適化の際に同時に決定されることなる。
 音声包絡テンプレートY′v,fは、図3(a)に示すように、対象音(有声音または無声音)について収集した1以上の学習用対象音信号を、周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれるパワー中の複数のピークを繋ぐ包絡線の分布状態(確率密度)を示すテンプレートである。図3(a)の音声包絡テンプレートY′v,fに示される濃淡は、分布状態(確率密度)を示している。音声包絡テンプレートY′v,fは、対象音ごとに準備される。音素認識であれば、認識すべき全ての音素ごとに音声包絡テンプレートY′v,fが準備される。前述のように、対象音が有声音の場合には、図3に示すように駆動音源関数H(f;f0)と図3(a)に示す音声包絡テンプレートY′v,fとの積により求められた音声スペクトルテンプレートが対象音スペクトルテンプレート記憶部5に記憶されている。駆動音源関数H(f;f0)と音声包絡テンプレートY′v,f
は、テンプレート生成部2内の内部メモリに保存されており、両者の積の演算がテンプレート生成部2内の演算部で実行される。
 対象音が無声音の場合には、テンプレート生成部2が内部メモリに保存している音声包絡テンプレートY′v,fを、対象音スペクトルテンプレートとして対象音スペクトルテンプレート記憶部5に記憶させる。
 ノイズ・スペクトルテンプレート記憶部7は、1種以上のノイズ・スペクトルテンプレート[図4(b)参照]を記憶している。ノイズ・スペクトルテンプレートとは、学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示すテンプレートである。ここで学習用ノイズ信号は、観測対象となる混合音信号に含まれる対象音の音信号以外の音信号である。ノイズも混合音信号の種類によって、異なってくる。そこで学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定されることになる。すなわち混合音信号の種類に応じて(ポップスの音楽信号、オペラのようなクラッシックの音楽信号等のように音楽種類に応じて)、ノイズ・スペクトルテンプレートを作成するのが好ましい。本実施の形態では、テンプレート生成部2が、学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係に基づいてノイズ・スペクトルテンプレートを作成して、ノイズ・スペクトルテンプレート記憶部7にそれを記憶させる。本実施の形態では、観測対象となる混合音信号の種類に合わせて、複数種類のノイズ・スペクトルテンプレートが、ノイズ・スペクトルテンプレート記憶部7に記憶されている。図4(b)のノイズ・スペクトルテンプレートに示される濃淡は、確率密度を示している。
 確率的スペクトルテンプレート作成部9は、組合せ部11と確率的スペクトルテンプレート記憶部13とを備えている。組合せ部11は、対象音スペクトルテンプレート記憶部5に保存されている1以上の対象音スペクトルテンプレートと、ノイズ・スペクトルテンプレート記憶部7に保存されている1種類以上のノイズ・スペクトルテンプレートとを一つずつ組み合わせて合成することにより1以上確率的スペクトルテンプレートを作成する。100の対象音スペクトルテンプレート(音声スペクトルテンプレート)と2つのノイズ・スペクトルテンプレートとがある場合、200の確率的スペクトルテンプレートが、組合せ部11で組み合わされて合成される。200の確率的スペクトルテンプレートは、確率的スペクトルテンプレート記憶部13に保存される。図4(c)は、確率的スペクトルテンプレートYfを一例を示している。
 観測スペクトル取得部14は、観測対象の混合音信号から離散的に取得した1フレーム信号を周波数分析して、図4(d)に示すような周波数とパワースペクトルとの関係を示す観測スペクトルy(f)を取得する。具体的には、所定の時間幅のハニング窓を1フレームとして用いて混合音信号から1フレーム信号を取得し、周波数分析を行って観測スペクトルを取得する。
 決定部15は、選択部17と、距離演算部19と、一時記憶部21と、確定部23とから構成される。選択部17は、確率的スペクトルテンプレート記憶部13から確率的スペクトルテンプレートを順番に選択する。そして距離演算部19は、選択した1つの確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインGs(重みパラメータg)とノイズ・スペクトルテンプレートのゲインGn(重みパラメータgn)を変えて得た複数のゲイン変更スペクトルテンプレートY′と観測スペクトルy(f)との距離(尤度)を求め、この距離が一番小さくなるゲイン変更スペクトルテンプレートをその確率的スペクトルテンプレートにおける最小距離ゲイン変更スペクトルテンプレートY′fminとして決定する。そして一時記憶部21に、最小距離ゲイン変更スペクトルテンプレートY′fminを記憶する。確率的スペクトルテンプレート記憶部13に記憶されている全ての確率的スペクトルテンプレートについて最小距離ゲイン変更スペクトルテンプレートY′fminを求めてそれらを一時記憶部21に記憶した後、確定部23は複数の確率的スペクトルテンプレートについてそれぞれ決定されて一時記憶部12に記憶された複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートY′fminを確定する。そして推定部25は、確定した最小距離ゲイン変更スペクトルテンプレートY′fminの対象音スペクトルテンプレートのゲインGs(重みパラメータg)とノイズ・スペクトルテンプレートのゲインGn(重みパラメータgn)に基づいて、混合比率Gs/Gnを推定する。例えば、100の対象音スペクトルテンプレートと2つのノイズ・スペクトルテンプレートとがある場合、200組の確率的スペクトルテンプレートが存在することにより、これら200組の確率的スペクトルテンプレートのそれぞれを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインとを変更して、200組の前述の候補を決定する。そして200組の候補の中から観測スペクトルとの距離が一番小さくなるものが、最小距離ゲイン変更スペクトルテンプレートとして決定される。ゲイン決定のための最適化には、準ニュートン法を用いることができる。
 推定部25が推定した1フレーム分の混合音信号の混合比率Gs/Gnは推定結果記憶部27に、対象音スペクトルテンプレートの識別情報(音素の種類を特定する情報)と一緒に格納される。音素認定部29は、推定結果記憶部27に記憶されているデータに基づいて、最小距離ゲイン変更スペクトルテンプレートに対応する音素を1フレームの音素として決定する。そして決定されたフレームの音素の連続性に基づいて音声の種類を決定する。ここで「フレームの音素の連続性」とは、実際の信号において、同じ音素が複数のフレームで連続して現れる傾向を示す性質を意味する。例えば、歌声の中で1つの母音が連続する長さは、1フレーム周期の100倍以上の長さになることもあり得る。
 したがってフレームの音素に基づいて、歌声の音素を決定する場合には、複数の連続するフレームの音素が、必ず、全てまたは大部分が同じになる。そこで本実施の形態では、フレームの音素の連続性に基づいて音声の種類を決定する。このようにすると混合音信号から音声信号だけを取り出すことなく、音素認識を行うことができる。
 次に、図1に示した実施の形態をコンピュータを用いて実施する場合のプログラムのアルゴリズムを示す図2に示したフローチャートについて説明する。このフローチャートは、一例であって、本発明はこのフローチャートに限定されるものではない。まずステップST1では、複数の確率スペクトルテンプレートを作成する。そこでステップST1を実施するために確率的スペクトルテンプレートを作成する。すなわち複数の学習用対象音信号に基づいて予め用意した複数の対象音スペクトルテンプレートと複数の学習用混合音信号に基づいて予め用意した1種類以上のノイズ・スペクトルテンプレートとを一つずつ組み合わせて合成することにより複数の確率的スペクトルテンプレートを作成する。次にステップST2では、混合音信号から1フレーム中の観測スペクトルを取得する。ステップST3では、複数(理論的には1つでも可能)の確率的スペクトルテンプレートのそれぞれについて、確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。ステップST4では、複数の確率的スペクトルテンプレートについてそれぞれ決定された複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートの対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて、混合比率を推定する。
[具体的適用例]
 次に上記実施の形態の混合比率推定方法及びシステムを用いて、混合音信号中の歌声の歌詞(音素)と基本周波数(F0)を同時に認識する実施の形態について説明する。歌詞は歌い手が歌声によって伝えたい内容を表現し、基本周波数F0 は楽曲の旋律を表すと同時に、歌手の技巧や表情なども表現するため、どちらも歌声を構成する重要な要素である。そのため、混合音中からこれらの要素を自動認識する技術は、音楽情報検索などにも応用可能で、重要な基礎技術となる。例えば、歌詞が認識できることで、歌詞が未知の楽曲を歌詞を手がかりに検索できる。また、音素の自動認識技術は、歌詞と音楽の時間的対応付けに適用することができ、歌詞をカラオケのように表示する音楽プレイヤーや音楽ビデオのテロップ自動作成などに応用できる。歌声の基本周波数(F0)の推定は、ボーカルパートの自動採譜やハミング検索などに応用可能である。さらに、ハミング検索に歌詞の情報を統合することで、ハミング検索の精度が向上することも報告されているなど、歌詞とF0を同時に推定することでさらに応用範囲が広まる。しかし、歌声は話し声に比べて、ビブラートやF0 の変化幅の広さ、歌手の感情表現などに起因する変動が多い上に、伴奏音が大音量で重畳するため、歌声(音素)の自動認識は非常に難しい問題がある。
 発明者等は、今までに音楽と歌詞の時間的対応付け手法(下記論文1及び2)と混合音中の歌声のF0 推定手法(下記論文3) について研究してきた。
 [論文1]
 Fujihara,H.及びGoto,M.著の「Three Techniques for Improving Automatic Synchronization between Music and Lyrics: Fricative Sound Detection、 Filler Model、 and Novel Feature Vectors for Vocal Activity Detection」、 Proceedings of the 2008 IEEE International Conference on Acoustics、 Speech、 and Signal Processing(ICASSP2008)、 pp.69-72 (2008).
 [論文2]
  Fujihara,H、 Goto,M.、 Ogata,J.、 Komatani,K.、 Ogata,T. 及びOkuno,H.G.著の「Automatic synchronization between lyrics and music CD recordings based on Viterbialignment of segregated vocal signals」、 Proc. ISM、 pp.257-264 (2006).
 [論文3]
 藤原弘将、後藤真孝及び奥乃博著「歌声の統計的モデル化とビタビ探索を用いた多重奏中のボーカルパートに対する音高推定手法」情報処理学会論文誌、 Vol.49、 No.10 (2008).
 上記論文に記載の手法では共通して、混合音から調波構造を手がかりに音を分離し、それを統計的手法により識別するというアプローチをとっていた。具体的には、歌詞の時間的対応付けの場合、既存手法によって推定された歌声のF0 の音がどの音素であるかを識別し、歌声のF0 推定の場合、各時刻の周波数成分の候補が歌声であるかそれ以外の音であるかを識別していた。しかし、それらの手法は下記の2つの問題点を抱えている。
 [分離の問題]
 歌声の認識性能が、その前段に行われる分離の性能に大きく依存していた。そのため、F0 推定や、分離の際にスペクトルから調波成分を選択する処理の誤りが、性能に悪影響を与えていた。また、歌声とノイズのS/N比や歌声の歪み度合いなどの情報を含んでいる背景雑音(分離対象の音以外の音)を、分離の過程で捨ててしまっていた。
 [スペクトル包絡推定の問題]
 従来の手法では、スペクトル包絡を分離後の歌声の調波構造から推定しスペクトル包絡同士の距離を計算することで、歌声を認識していた。しかし、調波構造の各倍音成分は元のスペクトル包絡からF0の整数倍の周波数成分をサンプリングしたものと考えることができるため、与えられた調波構造から元のスペクトル包絡を一意に復元することは原理的に不可能であった。そのため、例えばF0 が高い音など、調波構造の各倍音成分の谷間の幅が広い場合など、距離を正確に計算することが困難であった。
 本実施の形態では、歌声を分離したり、単一の調波構造からスペクトル包絡を推定したりせず、観測されたスペクトルを伴奏音が重畳したありのままの形を確率的にモデリングする。さらに、学習の過程では、複数の調波構造を用いることで、より正確にスペクトル包絡を推定する。
 具体的には、図4(c)と図4(d)に示すように、歌声を含む混合音信号のスペクトルがある確率分布の集合から生成されると仮定する。ここで、スペクトルの各周波数ビン(周波数分析幅)に現れるパワーはある確率分布に従い、その確率分布は複数のスペクトルのビンごとに異なると考える。スペクトルの加法性を仮定すると、確率的スペクトルテンプレートは、歌声を表現する音声(歌声)スペクトルテンプレート[図4(a)]と歌声以外の音を表現するノイズ・スペクトルテンプレート[図4(b)]の線形軸上での加算で表現することができる。そしてこれら2つのスペクトルテンプレートの加算の際に重みパラメータ(ゲイン調整)を導入し、重み付きで加算することで、様々なS/N比のスペクトルを表現できる。さらに、ソースフィルターモデルを仮定すると、音声(歌声)スペクトルテンプレートは、スペクトル包絡を表現する音声(歌声)包絡テンプレート(Vocal Envelope Template)[図3(a)]と駆動源の調波構造を表現する駆動音源関数(Harmonic Filter)[図3(b)]の積によって生成されると考えられる。駆動音源関数の形状は、基本周波数F0の値をパラメータとして、コントロールできる。
 確率モデルのパラメータである駆動音源関数のF0と、音声(歌声)スペクトルテンプレートとノイズ・スペクトルテンプレートのそれぞれの重みが定まれば、観測スペクト
ルの確率モデル(確率的スペクトルテンプレート)に対する尤度(距離)を計算することができる。このモデルを用いると、図5に示すように、各音素を表現する音声(歌声)包絡テンプレートY′v,f[音素/a/,音素/b/,・・・音素/o/・・]をあらかじめ学習しておき、観測スペクトルに対して最尤な(最も距離が近い)音声(歌声)包絡テンプレートY′v,fを選択することで音素認識ができて、最尤な(最も距離が近い)F0 の値を推定することでF0 推定ができる。図3を用いて説明した最初の実施の形態で説明したように、各音素を表現する音声(歌声)包絡テンプレート[音素/a/,音素/b/,・・・音素/o/・・]と駆動音源関数H(fi,f0)との積をとって、各音素のスペクトルテンプレートを表現する複数の音声(歌声)スペクトルテンプレート(対象音スペクトルテンプレート)Yv,fを作る。次に図4に示すように、各音素のスペクトルテンプレートを表現する複数の音声(歌声)スペクトルテンプレートYv,fとノイズ・スペクトルテンプレートYn,fとの積をとり(組み合わせて)、複数の音声(歌声)スペクトルテンプレートに対する複数の確率的スペクトルテンプレートYfを作成する。
 各音素の確認的スペクトルテンプレートを構成する音声(歌声)スペクトルテンプレートとノイズ・スペクトルテンプレートのそれぞれの重みを定めるために、各確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインGs(重みパラメータg)とノイズ・スペクトルテンプレートのゲインGn(重みパラメータgn)を変えて各音素についての複数のゲイン変更スペクトルテンプレートY′を得る。そして各音素についての複数のゲイン変更スペクトルテンプレートY′と観測スペクトルy(f)との距離(尤度)を求め、この距離が一番小さくなるゲイン変更スペクトルテンプレートをその確率的スペクトルテンプレートにおける最小距離ゲイン変更スペクトルテンプレートY′fminとして決定する。すなわち各音素についての複数のゲイン変更スペクトルテンプレートY′の中で距離(尤度)が一番小さくなるものを、その音素についての最小距離ゲイン変更スペクトルテンプレートY′fminとする。全ての音素についての確率的スペクトルテンプレートについて最小距離ゲイン変更スペクトルテンプレートY′fminを求め、求めた複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートY′fminに対応する音素を、認識した音素として確定する。
 図6には、コンピュータを用いて前述のゲイン変更スペクトルテンプレートY′と観測スペクトルy(f)との距離(尤度)を求めるプログラムのアルゴリズの一例を示している。このアルゴリズでは、ステップST11で基本周波数F0の初期値を設定し、音声スペクトルテンプレートのゲインを設定し、ノイズ・スペクトルテンプレートのゲインの初期値を設定する。そしてステップST12では、準ニュートン法等の非線形最適化手法で最適なゲインとF0を推定する。そしてステップST13で、得られたゲインとF0値についての尤度を計算する。
 図7は、ステップST12における基本周波数F0の推定のアルゴリズムの一例を示している。このアルゴリズムでは、ステップST21で観測スペクトル中から複数個のF0候補を推定する。このF0候補の推定には、観測スペクトルの周波数ピークの値を使用する方法や、櫛形フィルタの応答に基づいて推定する手法等、公知の推定法を用いることができる。
 そしてステップST22で全てのF0候補について以下のループ1を実施することが開始される。ステップST23では、全ての音声スペクトルテンプレートについて以下のループ2を実施することが開始される。ステップST24では、全ての音声スペクトルテンプレートについて以下のループ3を実施することが開始される。ステップST25では、F0候補の値を初期値として、音声スペクトルテンプレート及びノイズ・スペクトルテンプレートと観測スペクトルとの尤度により最適なF0を計算して保存する。最適なF0は、後述する「パラメータ推定」の説明中におけるStep0~Step3を用いて計算する。このとき、Step0で与えるF0の初期値に、F0候補の値を使用する。ステップST26でループ3を終了し、ステップST27でループ2を終了する。そしてステップST28でループ2とループ3で最も尤度が大きかったときのF0値と尤度を保存する。ステップST29でループ1を終了し、ステップST30では、ループ1で最も尤度が大きかったF0を推定結果として出力する。
 図8は、音素の推定をコンピュータを用いて行う場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。このアルゴリズムでは、ステップST31で全ての音素について以下のループ1を実施することが開始される。ステップST32では、その音素の全ての音声スペクトルテンプレートについて以下のループ2を実施することが開始される。ステップST33では、全てのノイズ・スペクトルテンプレートについて以下のループ3を実施することが開始される。ステップST34では、音声スペクトルテンプレート及びノイズ・スペクトルテンプレートと観測スペクトルとの尤度を計算して保存する。ステップST35でループ3を終了し、ステップST36でループ2を終了する。そしてステップST37でループ2とループ3で最も尤度が大きかった値をこの音素の尤度として保存する。ステップST38でループ1を終了し、ステップST39では、ループ1で最も尤度が大きかった音素を推定結果として出力する。
 この具体的な実施の形態によれば、音声(歌声)を分離せずに、ノイズ(伴奏音)が混在した状態をそのまま表現する。この具体的な実施の形態は、人間は音声(歌声)を分離せずにそのまま音声を認識できることを考えると、人間の知覚の観点からも自然な方法である。本実施の形態の方法では、音声(歌声)とノイズ(伴奏音)のS/N比をフレームごとに推定できるため、ノイズ(伴奏音)の変動に対してシステムは頑健である。さらに、複数のノイズ・スペクトルテンプレートを用意し、最尤なものを選択することで、システムをより頑健にすることができる。
 また本実施の形態では、単一の調波構造からスペクトル包絡を推定しないため、高いF0を持つ音に対してもシステムは頑健である。更に本実施の形態では、F0を持たない無声子音など、他の音や音源に対しても、駆動音源関数を用いない音声(歌声)スペクトルテンプレートを用意することで容易に拡張できる。
[定式化]
 以下上記に述べた方法及びシステムの具体的な定式化について説明する。本発明の方法をコンピュータに実装するに当たって、下記の3つの方法を具体化する。
 (1)確率的スペクトルテンプレートの表現方法。
 (2)2つのスペクトルテンプレートの加算の計算方法。
 (3)パラメータである、F0 とゲインを最適化する方法。
 上記の3つの方法を具体化するために、下記のようなアプローチを取る。
 (1)確率的スペクトルテンプレートの各周波数ビンの分布として、対数正規分布を用いる。
 (2)対数正規分布に従う確率変数を加算した確率変数が、対数正規分布に従うと仮定する。
 (3)準ニュートン法によりパラメータを最適化する。
[確率的スペクトルテンプレート]
 音声(歌声)を含む混合音のスペクトルy(f) は、確率変数Yf から生成されると仮定する。ただし、f は対数軸での周波数を表し、s は対数軸でのスペクトルのパワーを表す。この確率変数(の集合)Yf が前述の確率的スペクトルテンプレートである。
 次に、Yfは次式により2つの異なるスペクトルテンプレートに分割できると仮定する。
Figure JPOXMLDOC01-appb-M000001
 ただし、Yv,fは音声(歌声)のスペクトルを表し、前述の音声(歌声)スペクトルテンプレートである。Yn,f は音声(歌声)以外の音(ノイズまたは伴奏音)のスペクトルを表し、前述のノイズ・スペクトルテンプレートである。gv とgn は音声スペクトルテンプレート及びノイズ・スペクトルテンプレートの重みであり、それらを変化させることで音声(歌声)とその他の音のS/N比を変化させることができる。なお、式(1)においては、線形軸上でスペクトルの加法性を仮定している。Yv,fとYn,fとが、次式のように、(対数周波数軸上で)正規分布に従うと仮定する。
Figure JPOXMLDOC01-appb-M000002
 ここで、N(y; μ,σ2) は、平均μ、分散σの正規分布である。さらに、ソースフィルターモデルを仮定することで、調波構造を持つ音声(歌声)Yv,f は、次式のように、包絡の確率モデルと調波構造を表現するフィルタの対数軸上の加算で表現できると仮定する(図3)。
Figure JPOXMLDOC01-appb-M000003
 ここで、Y′v,f ~N(y; μ′v,f ; σ2 v,f ) は音声(歌声)のスペクトル包絡を表現する確率変数であり、前述の音声(歌声)包絡テンプレートである。また、H(f; f0) はF0 の値がf0のフィルタを表現し、駆動音源関数と呼ぶ。なお、駆動音源関数H(f; f0) は確率変数ではない。以上をまとめると、音声(歌声)とノイズ(伴奏音)が混ざったスペクトルを表現する確率的スペクトルテンプレートYfは下記のように表される。
Figure JPOXMLDOC01-appb-M000004
[スペクトルテンプレートの加算の近似]
 上記式(1)で表される確率的スペクトルテンプレートYf は、解析的に計算することは困難であるので、正規分布を用いて近似計算する。下記の関数l(x1, x2)を考える。
Figure JPOXMLDOC01-appb-M000005
 上記式の(x1, x2) = (μv,f + gv、μn,f+ gn) における2次のテイラー展開は、
Figure JPOXMLDOC01-appb-M000006
のように計算される。ただし、C はx1 とx2とは独立な定数である。ここで、パラメータ
gv、 gn 、f0が固定された場合、式(12)がx1 とx2の重み付き加算であることに注意すると、確率的スペクトルテンプレートYfは以下のように表される。
Figure JPOXMLDOC01-appb-M000007
 そしてYfは、
Figure JPOXMLDOC01-appb-M000008
のように表現される。
[音素とF0の推定]
 このモデルを使って音素とF0を認識するためには、まず、それぞれの音素iを表現する音声(歌声)包絡テンプレートθi vとノイズ・スペクトルテンプレートθを準備する必要がある。観測スペクトルy(f)が与えられたとき、次式によりy(f)に含まれる音素iとF0を推定することができる。
Figure JPOXMLDOC01-appb-M000009
 ただし、uf とσ2f は、それぞれ式(16)と(17)で定義される。
[準ニュートン法によるパラメータ最適化]
 式(19)を計算するためのパラメータθ = (gv、gn、0) の最適化には、BFGS(Broyden-Fletcher-Goldfarb-Shanno)公式に基づく準ニュートン法を使用する。準ニュートン法は山登り法の一種であり、反復的にパラメータを更新する。本モデルにおいて、最小化すべき目的関数Q(θ)は、
Figure JPOXMLDOC01-appb-M000010
で表される。ただし、y(f)は観測スペクトルである。
 ニュートン法では、目的関数を現在のパラメータの周りの二次のテイラー展開で近似し、パラメータを逐次的に更新する。しかし、ニュートン法では、2次のテイラー展開の計算に必要な2次の導関数のヘッセ行列が正定値であることを仮定しているが、この仮定は必ずしも成立しなかった。一方、準ニュートン法では、ヘッセ行列を直接計算せずに、パラメータの更新による1次の導関数の変化を用いて次式のように数値的に近似することで、安定した最適化が可能である。
Figure JPOXMLDOC01-appb-M000011
 ただし、k は反復回数を表す。
 パラメータは下記のように最適化できる。
 Step 0 :k = 0 とB(0) = I を設定し、θ(0) を初期化する。
 Step 1 :θ(k+1) を次式により更新する。
Figure JPOXMLDOC01-appb-M000012
 α(k) の値は、線形探索により決定する。
 Step 2:式(21) によりB(k+1) を更新する。
 Step 3:ステップ1に戻る。
[歌声包絡テンプレートの推定]
 式(4)中の音声(歌声)包絡テンプレートYv、f とノイズ・スペクトルテンプレートYn,f は、学習データから推定する。一般に、調波構造を持つ音声(歌声)のスペクトルは、真のスペクトル包絡に対して、基本周波数の整数倍の周波数成分の点をサンプリングしたものと考えることができる。そのため、観測スペクトル(調波構造)と、その元となるスペクトル包絡は一対多の関係になり得るので、単一フレームの調波構造から真のスペクトル包絡を推定することは困難である。そこで本実施の形態では、異なるF0 の値を持つ複数フレームの調波構造を用いることで、信頼性の高いスペクトル包絡を推定する。また、スペクトル包絡を一意に定めるのではなく、確率分布として推定するので、歌声の変動や学習データとテストデータの違いに対して頑健となる。複数の調波構造からその元となるスペクトル包絡を推定する場合、フレームごとの音量の違いを考慮に入れる必要がある。そのため、本実施の形態では各フレームの音量を正規化するためのパラメータを導入し、それも未知パラメータとして推定することでこの問題を解決した。
[混合回帰分布]
 スペクトルテンプレートを表現するモデルとして、各回帰要素として線形回帰を使用した混合回帰モデルを導入する。この混合回帰モデルは、例えば、 Jacobs,R.J.、 Jordan, M.、 Nowlan,S.J. 及び Hinton,G.E.著の「Adaptive mixtures of local experts」、 Neural Computation、 Vol.3、 pp.79-87 (1991)に記載されている。先に述べたように、本実施の形態では、スペクトルテンプレートはある周波数fにおける対数パワーの分布が正規分布で表現されるモデルを用いて定義される必要があるが、このモデルはその用件を満たしている。混合回帰モデルでは、スペクトルテンプレートの平均μv,f と分散σ2v,f を下記の通り表現する。
Figure JPOXMLDOC01-appb-M000013
 ただし、Gm(f; ψm, μm,σ2 m) はゲート関数の出力で、次式で定義される正規化ガウス関数を用いた。この正規化ガウス関数は、Xu, L.、 Jordan,M. I. 及び Hinton,G.E.著の「An alternative model for mixtures of experts」、 Advances in Neural Information Processing Systems 7、 pp.633-640 (1994)に記載されている。
Figure JPOXMLDOC01-appb-M000014
 このモデルにおいて、未知パラメータは{ψm, μm, σ2 m, am, bm,β2 m} であり、EM(Expectation and Maximization)法により推定することが可能である。ただし、ψm は、ψm ≧ 0かつΣm ψm = 1 である。
[パラメータ推定]
 学習データとして与えられた1フレーム分の調波構造si(i = 1,...,I) のh 次倍音の周波数fi,h とその対数パワーyi,h が、下記の式として表されたとする。
Figure JPOXMLDOC01-appb-M000015
 この時、最大化したい尤度関数は、次式で表される。
Figure JPOXMLDOC01-appb-M000016
 ここで、ki は各調波構造の音量を正規化するオフセットパラメータである。混合回帰モデルのパラメータとkiを同時に最適化することは困難であるため、それらを反復的に更新していく。
 パラメータは下記の手続きで推定される。
 Step 0:ki = 0 とし、その他のパラメータの初期値を与える。
 Step 1:混合回帰モデルのパラメータをEM法により推定する。
 Step 2:kiを次式により更新する。
Figure JPOXMLDOC01-appb-M000017
 Step 3:1 に戻る。
 図9は、パラメータの推定過程の例である。図9は、混合回帰モデルのパラメータ推定の過程の一例であり、各図の中心の太い線は混合回帰モデルの平均を表し、その上下の細い2本の線は標準偏差を表す。背景の細かい点は学習データの調波成分を表し、図の下部の複数の山は、ゲート関数Gm(f; ψm, μm,σ2 m) を表す。図より、更新を重ねることで学習データの各調波構造に対するオフセットパラメータki が最適化されて、より分散の少ない回帰曲線が推定されていることが見てとれる。ノイズ・スペクトルテンプレートについては、si(i = 1,....,I)を調波構造でなくスペクトルそのものと考えることで、同様に推定できる。
 図10は、このパラメータ推定をコンピュータで実施する場合に用いるプログラムのアルゴリズムのフローチャートを示している。まずステップST41でパラメータを初期化する。パラメータの初期化のために、学習データ、複数の調波構造(各倍音F0とパワー)が使用される。次にステップST42では、t=1としてループ1を開始する。ステップST43では、現在のオフセットパラメータと各混合回帰モデルのパラメータを用いて、学習データの調波構造の各混合回帰モデルに対する帰属確率を計算する。そしてステップST44では、現在のオフセットパラメータと各混合回帰モデルのパラメータに対する帰属確率を用いて、各混合回帰モデルを用いて、各混合回帰モデルのパラメータをEMアルゴリズムにより推定する。ステップST45では、オフセットパラメータを更新する。そしてステップST46で、tが一定の回数を上回ったか否かの判定がなされる。Yesであれば、ステップST48で終了し、Noであればループ1が繰り返される。
 上記実施の形態では、使用する学習用対象音信号及び学習用ノイズ信号は、それぞれ個別に入手することを前提としている。しかし学習対象音信号及び学習用ノイズ信号が、簡単に入手できない場合もある。そこでこのような場合には、学習用対象音信号の対象音スペクトルテンプレートと学習用ノイズ信号のノイズ・スペクトルテンプレートを、共に学習用混合信号から推定することができる。この推定は、図1のテンプレート生成部2の構成を変えることにより実現できる。なお学習用混合音とは、対象音が属する種類の音の信号とノイズに相当する音の信号が混合されて構成されたものである。観察対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、1以上の学習用混合音信号として、女性のボーカル歌声を含む混合音信号を用いる。
 具体的に、学習用混合音からテンプレートを推定する場合は、音声包絡テンプレートとノイズ・スペクトルテンプレートを同時に推定する必要がある。図11には、テンプレート生成部2をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示してある。ステップST51において、パラメータの初期化を行う。前提として、I 個の観測スペクトルy1(f), ・ ・ ・ ,yi(f), ・ ・ ・ ,yI (f) を観測したと仮定する。推定すべき対象音(音声)スペクトルテンプレートのパラメータはθv = {ψv,m、μv,m、σ2 v,m、av,m、bv,m、β2 v,m} とし、ノイズ・スペクトルテンプレートのパラメータはθn = {ψn,m、 μn,m、 σ2 n,m、 an,m、 bn,m、 β2 n,m} とする。i 番目のスペクトルにおける駆動音源関数を加えた後の対象音スペクトルテンプレートは、以下のように表すことができる。
Figure JPOXMLDOC01-appb-M000018
 ただし、i 番目の観測スペクトルのF0 であるf0(i) は全てのi について既知であるとする。
 先の実施の形態では、対数正規分布の加算を1次のテイラー展開を用いて近似計算した。しかし、得られた式(15)~(17) は複雑な形状となり、対象音(音声)スペクトルテンプレートθv、ノイズ・スペクトルテンプレートθn を最適化するのは困難である。そこで本実施の形態では、対数正規分布の加算を定義に従って厳密に計算した後、パラメータを近似的に推定するというアプローチをとる。合成後のスペクトルテンプレートの確率密度関数をpi,f (y; θv、θn、gi,v、gi,n) と書くと[なお観測するスペクトルの番号iごとに確率密度関数の形状が異なるので、添え字iを追加している。]、目的関数L は、以下のように表される。
Figure JPOXMLDOC01-appb-M000019
 ここで、gi,vとgi,n は、先の実施の形態のオフセットパラメータki と同様で、音量をフレーム間で正規化するオフセットパラメータ(重み)である。また、gi,vとgi,n は、音声(歌声)包絡テンプレートとノイズ・スペクトルテンプレートのSIR(Signal-to-Interference Ratio)を調整する役割も持っている。実際の実装では、連続ウェーブレット変換は周波数軸に対して離散的に計算しているため、f に関する積分は和の演算で置き換えられる。
 ここで推定すべきパラメータは{gi,v、 gi,n、θv、θn} である。これらのパラメータを全て同時に最適化するのは困難であるので、逐次的に最適化する。まず、ステップST52において、重みgi,n とノイズ・スペクトルテンプレートθを固定して、上記式(31) による重みgi,v とノイズ・スペクトルテンプレートθv の最適化を行い、ステップST56においては重みgi,v と対象音スペクトルテンプレートθv を固定して、式(32) による重みgi, n と対象音スペクトルテンプレートθn の最適化を交互に繰り返すことを考える。まず、ステップST52において、gi,n とθn を固定して考えると、式(31) の和の内部は期待値の計算と考えることができる。そこで、サンプルUの期待値の計算(正規分布の積分を含む計算)をサンプリングにより和の計算で近似する。ここでサンプリングとは、図12に模擬的に示すように、分布に関する積分を多くの点の和で近似することを意味する。このサンプリングにより、gi,v とθv の近似的な最適化が可能になる。具体的には、学習用ノイズ音に関する正規分布N(U; μn,f + gi,n、 σ2 n,f ) をU = yi(f) で切断した、確率変数の定義域の上限が有界な単一切断正規分布からそれぞれのi、f についてR 個ずつのサンプル(Ui,1,f 、 ・ ・ ・ 、 Ui,r,f 、 ・ ・ ・ 、 Ui,R,f ) をサンプリングしたとき、目的関数L は、以下のように近似できる。
Figure JPOXMLDOC01-appb-M000020
 具体的な実施例では、Rの値を300 に設定している。ここで、重みgi,n とノイズ・スペクトルテンプレートθn を固定すると、πi,r,f と(log(exp(yi(f))-exp(Ui,r,f )) は定数となるため、式(33) を用いて、重みgi,vと対象音スペクトルテンプレートθv を最適化できる(ステップST51~ステップST55)。また、重みgi,v と対象音スペクトルテンプレートθv を固定した場合も同様で、式(31) からサンプリングにより式(33) と同様の式を導出し、重みgi,n とノイズ・スペクトルテンプレートθn を最適化する(ステップST56~ステップST59)。
 しかし、式(33) は和(Σ)の対数(log)の形をしているため、未だ直接の最適化が困難である。そこで、EMアルゴリズムに似た反復法によって、式(33) を反復的に最適化する。便宜的に、推定したいパラメータをλ = {gi,vv} と書く。また、一回前の反復におけるパラメータの推定値をλ′と置く。まず、下記の変数zi,r,f を考える。
Figure JPOXMLDOC01-appb-M000021
 そしてλ′を用いて計算したzi,r,f をz′i,r,f とする(ステップST4)。このとき、zi,r,f を固定し、下記の新たな目的関数Q1(λ|λ′)を定める。
Figure JPOXMLDOC01-appb-M000022
 そして上記目的関数をλ に関して最適化する操作と、最適化されたλ を用いてzi,r,f を再計算する操作を反復する(ステップST53~ST55の繰り返し反復をする)と真の目的関数L が最大化できる。なおこの反復回数は少なくとも1回でよい。式(36) をよく見ると、πi,r,f は最適化に無関係であることがわかる。したがって、下記の関数Q2(λ|λ′) の最適化は、Q1(λ|λ′) の最適化と等価であることがわかる。
Figure JPOXMLDOC01-appb-M000023
 さらに、Q2 は定数項z の存在を除くと、式(27) と同様の形式をしていることがわかる。そこで上記式(37)のQ2関数の最適化を実施する(ステップST54)。すなわち、先の実施の形態で述べた単独の学習用対象音信号及び学習用ノイズ信号からのテンプレート推定の場合と同様に、Q2 関数は最適化できることがわかる。
 上記と同様の操作を重みgi,v と対象音スペクトルテンプレートθv を固定し、式(31) からサンプリングにより式(33) と同様の式を導出し、重みgi,n とノイズ・スペクトルテンプレートθn を最適化する(ステップST56~ステップST59)。そしてステップST52~ST59を予め定めた回数反復(ステップST60)すると終了する。この反復回数は少なくとも1回でよい。
 以上をまとめるとパラメータは下記の手続きで推定される。
 ステップST51: gi,v = 0、gi,n =0 とし、その他のパラメータに対して後述のように初期値を与える。
 ステップST52: gi,n とθn を固定して、式(31) のUをサンプリングする。
 ステップST53: サンプリングしたUと現在のパラメータgi,v、θv を用いて、式(35) のzi,r,f を計算する。
 ステップST54: ステップST53 計算されたzi,r,f を用いて、式(37) のQ2 関数を最適化する。この最適化には、反復的な最適化法を利用する。
 ステップST55: ステップST52~ステップ54の反復が規定回数を超えた場合はステップST56へ、そうでない場合はステップST52に戻る。
 ステップST56: gi,v とθv を固定して、式(31) のUをサンプリングする。
 ステップST57: サンプリングしたUと現在のパラメータgi,n,θn を用いて、式(35) のzi,r,f を計算する。
 ステップST58: 計算されたzi,r,f を用いて、式(37) のQ2 関数を最適化する。この最適化にも反復的な最適化法を利用する。
 ステップST59: ステップST57~ST58の反復が規定回数を超えた場合はステップST60へ、そうでない場合はステップST57に戻る。
 ステップST60:ステップST52~ST59 の反復が規定回数を超えた場合は終了する。そうでない場合はステップST52に戻る。
 対象音スペクトルテンプレートの初期値は、観測対象の対象音信号(例えば対象音が歌であれば、対象音の歌手とは異なる歌手の単独歌唱の音響信号から得る。またノイズ・スペクトルテンプレートの初期値は、歌声の入っていない音楽音響信号(例えば、カラオケトラック)から、それぞれ先の実施の形態で推定したパラメータの値を使用すればよい。
 本発明によれば、対象音(音声、歌声等)がその他のノイズ(伴奏音等)と混ざった状態のスペクトルを、分離せずそのまま認識することができる。混合音を認識するために、構成するそれぞれの音を分離し、その後分離した音を認識するという従来の技術と比べて、本発明によれば、背景のノイズに関する情報も活用するため、従来よりも性能を向上させることができる。また本発明によれば、混合音信号について各フレームでS/N比の推定を行うのでノイズの変動に対してロバストになるという利点がある。
 1 混合比率推定システム
 2 テンプレート生成部
 3 スペクトルテンプレート記憶部
 5 対象音スペクトルテンプレート記憶部
 7 ノイズ・スペクトルテンプレート記憶部
 9 確率的スペクトルテンプレート作成部
11 組合せ部
13 確率的スペクトルテンプレート記憶部
14 観測スペクトル取得部
15 決定部
17 選択部
19 距離演算部
21 一時記憶部
23 確定部
25 推定部
27 推定結果記憶部
29 音素認識部

Claims (10)

  1.  混合音信号から離散的に取得した1フレーム信号に含まれる対象音信号とノイズ信号との混合比率を、コンピュータを用いて推定する混合音信号の混合比率推定方法であって、
     1以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上の対象音スペクトルテンプレートと、1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートを用意し、
     前記1以上の対象音スペクトルテンプレートと前記1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成し、
     前記混合音信号から前記1フレーム中の観測スペクトルを取得し、
     前記1以上の確率的スペクトルテンプレートを構成する前記1以上の対象音スペクトルテンプレートのゲインと前記1以上のノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定し
     前記最小距離ゲイン変更スペクトルテンプレートの前記ゲインと前記ノイズ・スペクトルテンプレートの前記ゲインに基づいて前記混合比率を推定することを特徴とする混合音信号中の混合比率推定方法。
  2.  前記対象音スペクトルテンプレートと前記ノイズ・スペクトルテンプレートが、共に学習用混合信号から推定されたものである請求項1に記載の混合音信号中の混合比率推定方法。
  3.  前記対象音信号が調波構造を有する有声音信号であるときに、前記対象音スペクトルテンプレートを、前記有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、
     前記対象音信号が無声音信号であれば、前記対象音スペクトルテンプレートとして前記音声包絡テンプレートを用い、
     前記音声包絡テンプレートは、対象とする有声音または無声音についての学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれる前記パワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートであることを特徴とする請求項1に記載の混合音信号中の混合比率推定方法。
  4.  前記最小距離ゲイン変更スペクトルテンプレートを決定する際に、前記駆動音源関数の基本周波数F0を推定する請求項1または3に記載の混合音信号中の混合比率推定方法。
  5.  前記パワースペクトルの確率分布は、各周波数において対数正規分布で表されている請求項1に記載の混合音信号中の混合比率推定方法。
  6.  前記ゲインの最適化及び前記基本周波数F0の推定に、準ニュートン法を用いることを特徴とする請求項4に記載の混合音信号中の混合比率推定方法。
  7.  請求項1乃至6のいずれか1項に記載の混合音信号中の混合比率推定方法により求めた、前記最小距離ゲイン変更スペクトルテンプレートに対応する音素を前記1フレームの音素と決定し、決定された複数の前記フレームの音素の連続性に基づいて音声の種類を決定することを特徴とする音素認識方法。
  8.  混合音信号から離散的に取得した1フレーム信号に含まれる対象音信号とノイズ信号との混合比率を推定する混合音信号の混合比率推定システムであって、
     1以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上の対象音スペクトルテンプレートと、1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートとを記憶するスペクトルテンプレート記憶部と、
     前記1以上の対象音スペクトルテンプレートと前記1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成する確率的スペクトルテンプレート作成部と、
     前記混合音信号から前記1フレーム中の観測スペクトルを取得する観測スペクトル取得部と、
     前記1以上の確率的スペクトルテンプレートをそれぞれ構成する前記対象音スペクトルテンプレートのゲインと前記ノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する決定部と、
     前記最小距離ゲイン変更スペクトルテンプレートの前記ゲインと前記ノイズ・スペクトルテンプレートの前記ゲインに基づいて前記混合比率を推定する推定部とを備えていることを特徴とする混合音信号中の混合比率推定システム。
  9.  前記1以上の対象音スペクトルテンプレート及び前記1以上のノイズ・スペクトルテンプレートを生成するテンプレート生成部を備え、
     前記テンプレート生成部は、前記対象音信号が調波構造を有する有声音信号であるときに、前記対象音スペクトルテンプレートを、前記有声音信号の調波構造の標準的なスペクトルの周波数成分を示す調波駆動音源関数と音声包絡テンプレートとの積により定め、且つ前記対象音信号が無声音信号であれば、前記対象音スペクトルテンプレートとして前記音声包絡テンプレートを用いるように構成されており、
     前記音声包絡テンプレートは、対象とする有声音または無声音についての学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれる前記パワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートであることを特徴とする請求項8に記載の混合音信号中の混合比率推定システム。
  10.  前記テンプレート生成部は、前記対象音スペクトルテンプレートと前記ノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成されている請求項8に記載の混合音信号中の混合比率推定システム。
PCT/JP2010/062205 2009-07-21 2010-07-21 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法 WO2011010647A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011523664A JP5334142B2 (ja) 2009-07-21 2010-07-21 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-170629 2009-07-21
JP2009170629 2009-07-21

Publications (1)

Publication Number Publication Date
WO2011010647A1 true WO2011010647A1 (ja) 2011-01-27

Family

ID=43499119

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/062205 WO2011010647A1 (ja) 2009-07-21 2010-07-21 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法

Country Status (2)

Country Link
JP (1) JP5334142B2 (ja)
WO (1) WO2011010647A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2489083A (en) * 2011-03-14 2012-09-19 Adobe Systems Inc Automatic equalization of colouration in speech recordings
WO2014203275A2 (en) 2013-06-18 2014-12-24 Cadila Healthcare Limited An improved process for the preparation of apixaban and intermediates thereof
KR101481060B1 (ko) * 2013-10-17 2015-01-21 전북대학교산학협력단 판소리 자동 채보 장치 및 방법
JP2017054122A (ja) * 2015-09-10 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響モデル生成装置及び方法、音声認識装置及び方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09230886A (ja) * 1995-03-06 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 音声認識用耐雑音隠れマルコフモデル作成方法及びその作成方法を用いる音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JP2000194392A (ja) * 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2007047422A (ja) * 2005-08-09 2007-02-22 Kazuhiro Fuchi 音声分析合成装置および音声分析合成方法
JP2007225931A (ja) * 2006-02-23 2007-09-06 Advanced Telecommunication Research Institute International 音声認識システム及びコンピュータプログラム
WO2008058842A1 (en) * 2006-11-16 2008-05-22 International Business Machines Corporation Voice activity detection system and method
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09230886A (ja) * 1995-03-06 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 音声認識用耐雑音隠れマルコフモデル作成方法及びその作成方法を用いる音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JP2000194392A (ja) * 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2007047422A (ja) * 2005-08-09 2007-02-22 Kazuhiro Fuchi 音声分析合成装置および音声分析合成方法
JP2007225931A (ja) * 2006-02-23 2007-09-06 Advanced Telecommunication Research Institute International 音声認識システム及びコンピュータプログラム
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
WO2008058842A1 (en) * 2006-11-16 2008-05-22 International Business Machines Corporation Voice activity detection system and method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"1995 International Conference on Acoustics, Speech, and Signal Processing, 1995.05", vol. 1, article YASUHIRO MINAMI ET AL.: "A maximum likelihood procedure for a universal adaptation method based on HMM composition", pages: 129 - 132 *
"Acoustical Society of Japan, 2003 Autumn Meeting Koen Ronbunshu -I-, 17 September 2003 (17.09.2003)", article ZHANG ZHIPENG ET AL.: "Zatsuon no Shurui to SNR o Doji ni Koryo shita Mokuzo Clustering ni yoru Zatsuon Tekioho", pages: 19 - 20 *
"Acoustical Society of Japan, 2004 Autumn Meeting Koen Ronbunshu -I-, 21 September 2004 (21.09.2004), pages", article SATOSHI KOBASHIKAWA ET AL.: "Zatsuon Yokusei to HMM Gosei ni Motozuku Multi S/N Taio Onsei Ninshiki", pages: 23 - 24 *
MASAKI IDA ET AL.: "Rapid Environment Adaptation Method Based on HMM Composition with Prior Noise GMM and Multi-SNR Models for Noisy Speech Recognition", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J86-D-II, no. 2, 1 February 2003 (2003-02-01), pages 195 - 203 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2489083A (en) * 2011-03-14 2012-09-19 Adobe Systems Inc Automatic equalization of colouration in speech recordings
GB2489083B (en) * 2011-03-14 2014-11-19 Adobe Systems Inc Automatic equalization of coloration in speech recordings
WO2014203275A2 (en) 2013-06-18 2014-12-24 Cadila Healthcare Limited An improved process for the preparation of apixaban and intermediates thereof
KR101481060B1 (ko) * 2013-10-17 2015-01-21 전북대학교산학협력단 판소리 자동 채보 장치 및 방법
JP2017054122A (ja) * 2015-09-10 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響モデル生成装置及び方法、音声認識装置及び方法

Also Published As

Publication number Publication date
JP5334142B2 (ja) 2013-11-06
JPWO2011010647A1 (ja) 2013-01-07

Similar Documents

Publication Publication Date Title
US11468870B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
Durrieu et al. A musically motivated mid-level representation for pitch estimation and musical audio source separation
Eronen Automatic musical instrument recognition
CN101308652B (zh) 一种个性化歌唱语音的合成方法
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
Muller et al. Signal processing for music analysis
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US20050049875A1 (en) Voice converter for assimilation by frame synthesis with temporal alignment
JP5961950B2 (ja) 音声処理装置
CN109979488B (zh) 基于重音分析的人声转乐谱系统
WO2005066927A1 (ja) 多重音信号解析方法
CN107924686A (zh) 语音处理装置、语音处理方法以及语音处理程序
CN108766409A (zh) 一种戏曲合成方法、装置和计算机可读存储介质
CN103915093A (zh) 一种实现语音歌唱化的方法和装置
JP2010054802A (ja) 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP5334142B2 (ja) 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
JP4323029B2 (ja) 音声処理装置およびカラオケ装置
Lerch Software-based extraction of objective parameters from music performances
JP4364977B2 (ja) 音声変換装置及び方法
JP4430174B2 (ja) 音声変換装置及び音声変換方法
JP3447220B2 (ja) 音声変換装置及び音声変換方法
JP6260499B2 (ja) 音声合成システム、及び音声合成装置
Özer F0 Modeling For Singing Voice Synthesizers with LSTM Recurrent Neural Networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10802267

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2011523664

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10802267

Country of ref document: EP

Kind code of ref document: A1