WO2005066927A1 - 多重音信号解析方法 - Google Patents

多重音信号解析方法 Download PDF

Info

Publication number
WO2005066927A1
WO2005066927A1 PCT/JP2005/000148 JP2005000148W WO2005066927A1 WO 2005066927 A1 WO2005066927 A1 WO 2005066927A1 JP 2005000148 W JP2005000148 W JP 2005000148W WO 2005066927 A1 WO2005066927 A1 WO 2005066927A1
Authority
WO
WIPO (PCT)
Prior art keywords
fundamental frequency
model
harmonic structure
estimated
signal analysis
Prior art date
Application number
PCT/JP2005/000148
Other languages
English (en)
French (fr)
Inventor
Shigeki Sagayama
Takuya Nishimoto
Hirokazu Kameoka
Original Assignee
Toudai Tlo, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toudai Tlo, Ltd. filed Critical Toudai Tlo, Ltd.
Priority to JP2005516909A priority Critical patent/JPWO2005066927A1/ja
Publication of WO2005066927A1 publication Critical patent/WO2005066927A1/ja

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H3/00Measuring characteristics of vibrations by using a detector in a fluid
    • G01H3/04Frequency
    • G01H3/08Analysing frequencies present in complex vibrations, e.g. comparing harmonics present

Definitions

  • the present invention relates to a method for analyzing a multi-sound signal, and more particularly to an optimization problem for estimating the number of sound sources from a multi-sound signal, separating a spectrum, and estimating a plurality of fundamental frequencies (F). age
  • a mixture of sound signals of a plurality of sound sources such as voices and instrument sounds is called a multiple sound.
  • Estimation of the fundamental frequency of multiple tones has been studied as one of the important factors in the field of music informatics! Benefits include automatic transcription, instrument sound separation, performer performance analysis, and MIDI conversion from acoustic signals.
  • Kashino et al. Constructed a Bayesian network integrating statistical data hypotheses such as chord component sound information, chord transition information, and overtone ratio information for each musical tone, and a set of hypotheses with the highest posterior probability (note name) , Sound source name), and a method to output frequency components were proposed.
  • the frequency component can be extracted from the set of the maximum points of the observed power spectrum, assuming that each phone is composed. Therefore, the fundamental frequency and the frequency can be extracted with the same resolution as the frequency resolution in the frequency analysis.
  • the overtone frequency can be obtained.
  • Patent Document 1 Patent No. 3413634
  • Non-Patent Document 1 Kunio Kashino, Kazuhiro Nakadai, Tomoyoshi Kinoshita, Hidehiko Tanaka: "Single Recognition in OPTIMA, a Processing Model for Music Scene Analysis," IEICE Transactions on Information Technology, D-II,
  • Non-Patent Document 2 Kunio Kashino, Tomoyoshi Kinoshita, Kazuhiro Nakadai, Hidehiko Tanaka: "Recognition of chords in OPTIMA, a processing model for music scene analysis," IEICE Transactions,
  • Non-Patent Document 3 Masataka Goto: “Pitch Estimation of Melody and Bass for Musical Acoustic Signals," Transactions of the Institute of Electronics, Information and Communication Engineers, D-II, Vol.J84-D-II, No.l, pp. 12-22, 2001
  • Non-Patent Document 4 M. Goto: "A Predominent-F0 Estimation Method for Real-world Musical Audio Signals: MAP Estimation for Incorporating Prior Knowledgeabout FOs and Tone Models," Proceedings of CRAC—2001 ⁇ , 2001
  • Non-Patent Document 5 M. Goto: "A Predominent-FO Estimation Method for CD Recordings: MAP Estimation Using EM Algorithm for Adaptive Tone Models," Proceedings of the 2001 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP-2001, pp .V- 3365-3368, 2001
  • Patent Document 6 D. Chazan, Y. Stettiner and D. Malah, "Optimal Multi-pitch Estimation Using the EM Algorithm for Co-channel Speech Separation, 'Proc. ICASSP93 ⁇ , Vol.
  • Non-Patent Document 7 M.Wu, D.Wangand G.J.Brown, "AMulti-pitch Tracking Algorithm for noisy Speech," lCASSP2002 ⁇ , Vol.1, pp.369-372, 2002
  • the present invention provides a method for generating a plurality of fundamental frequencies (F
  • a further object of the present invention is to extract the number of sound sources in the fundamental frequency extraction of a multi-tone signal (in the present specification, the number of sound sources means the number of fundamental frequencies that are simultaneously sounded). It is still another object of the present invention to separate a spectrum for each inherent harmonic structure from a multi-tone signal and to extract a frequency component power ratio.
  • the present invention is a method for analyzing a multi-sound signal by estimating an observed spectrum of the multi-sound signal with a multi-harmonic structure model including a plurality of harmonic structure models.
  • Each harmonic structure model has a fundamental frequency estimated value that is a representative value of one single-peak distribution corresponding to the fundamental frequency component, and a representative value of another single-peak distribution determined by the fundamental frequency estimate. It has. Numerous Distributions Known as Unimodal Distributions In one preferred embodiment, the unimodal distribution is a normal distribution (including a lognormal distribution). Examples of the representative value of the distribution include an average, a median, and a mode. In a preferred embodiment, the representative value of the distribution is an average.
  • a method of analyzing a multi-tone signal in which an observed spectrum of a multi-tone signal is estimated by a multi-harmonic structure model obtained by mixing a plurality of harmonic structure models modeled by a constrained mixed normal distribution will be described.
  • the harmonic structure model modeled by the constrained mixed normal distribution has a fundamental frequency estimate that is the average of one normal distribution corresponding to the fundamental frequency component, and another normal component determined by the fundamental frequency estimate. With the average of the cloth.
  • Model parameters in the multiharmonic structure model include a representative value, weight, and variance of each unimodal distribution of the harmonic structure model.
  • Representative value parameters make up the fundamental frequency estimate
  • the representative values of the unimodal distributions are included.
  • the weight parameter is expressed as the product of the weight for each harmonic structure model and the weight of the single-peak distribution in the harmonic structure model.
  • the variance parameter is in one embodiment provided to the model as a known parameter.
  • the present invention includes two technical means. One is the estimation of the number of sound sources in the multi-tone signal, and the other is the estimation of the fundamental frequency and Z or the frequency component power ratio of each sound source (harmonic component energy detection).
  • the two technical means are independent of each other. By combining the two technical means, the number of sound sources is estimated from the multi-tone signal, the spectrum is separated, and a plurality of fundamental frequencies (F) Can be estimated. In addition, the latter
  • the technical means includes two technical means of detecting a fundamental frequency and detecting a frequency component power ratio.
  • the fundamental frequency detection and the frequency component power ratio detection are common in the detection step, but can be adopted as independent technical means.
  • the number of models is reduced or Z and augmentation are reduced based on a given one or a plurality of harmonic structure models.
  • a plurality of appropriate harmonic structure models are selected using the information criterion, and the number of selected harmonic structure models is used as the estimated number of sound sources. Decreasing the number of models includes deleting models and consolidating models. Increasing the number of models includes splitting models and creating new models.
  • a harmonic structure model having a number greater than the estimated number of sound sources is prepared, and the harmonic structure model that is determined to have a small contribution to likelihood is deleted.
  • the harmonic structure model determined to have a small contribution to the likelihood is a model in which the weight of each harmonic structure of the harmonic structure model is small. More specifically, either the model with the smallest weight among all harmonic structure models, or the model with the smaller weight when adjacent fundamental frequency estimates are closer than a predetermined threshold The model corresponding to is deleted. In this case, the weight of each unimodal distribution in the harmonic structure model may be fixed. In the embodiment described later, AIC is adopted as the information amount criterion. The number of harmonic structure models when is minimized is taken as the estimated number of sound sources.
  • the representative value of one harmonic structure model is isolated from another representative value, it may be better to split it.
  • One criterion is to ⁇ split a particular model into two if the distance between the representative value of that particular model and the nearest representative model is greater than a certain threshold. '' Is exemplified. In this case, if the merit of splitting becomes more powerful, the two representative values attract and reintegrate, and it is appropriate if the split shows a multimodal distribution well. It is presumed that the convergence is performed while maintaining a suitable distance.
  • Detection of the fundamental frequency or Z and the frequency component power ratio is based on each harmonic structure model that is the basis of the estimated number of sound sources, and at least an integral multiple of the representative value constituting the fundamental frequency estimated value and Z or
  • appropriate replacement values and weights were selected using the information criterion, and the selected values were selected.
  • the replacement value or Z and the weight are used as the estimated value of the fundamental frequency or Z and the frequency component power ratio.
  • the replacement value for the fundamental frequency estimate is at least one times the fundamental frequency estimate.
  • the maximum likelihood estimator of the parameter is obtained while fixing the fundamental frequency estimated value (estimated representative value) to a replacement value and updating only the weight of the unimodal distribution.
  • the fundamental frequency is determined from the replaced fundamental frequency estimation value (including 1), and the frequency component power ratio is determined from the weighting power of the single-peak distribution.
  • AIC is adopted as an information amount criterion, the replaced fundamental frequency estimation value when the AIC is minimized is assumed to be an estimated fundamental frequency, and the weight of distribution is assumed to be an estimated frequency component power ratio.
  • the present invention uses an estimation method and an information amount criterion.
  • a model by minimizing a KL information amount between a model / spectrum using an EM algorithm
  • parameter estimation corresponding to the maximum likelihood estimation method
  • AIC calculated using log-likelihood based on the square error between both distributions
  • the maximum likelihood a method for estimating model parameters in a multiharmonic structure model
  • the maximum posterior probability estimation method MAP estimation
  • the variational Bayes method are included.
  • the estimation of the model parameters is performed using the KL information between the observed spectrum and the multi-harmonic structure model as an evaluation scale, and the maximum likelihood estimation of the model parameters is minimized.
  • the information criterion adopted by the present invention is not limited to AIC (Akaike information criterion), but ABIC (Akaike Bayesian information criterion), TIC (Takeuchi information criterion), BIC (Bayes information criterion), MDL (minimum described length), GIC (generalized information criterion, regularization method (maximum likelihood method with penalty), EIC (bootstrap information criterion), PIC (prediction information criterion), cross-nodulation, FPE ( Final prediction error), Mallow's C criterion, Hannan Quinn's criterion, and their approximate information criterion or equivalent
  • the present invention is also provided as a computer program for causing a computer to execute the signal analysis method according to the present invention, or as a recording medium on which such a computer program is recorded.
  • the present invention it is possible to detect the number of sound sources (the number of sounds) of a multi-tone signal whose number of sound sources is unknown.
  • the fundamental frequency (pitch) can be detected as a precise value for the multi-tone signal strength.
  • the frequency components that are spread and observed in this manner are regarded as an appearance frequency distribution or a probability distribution of each frequency, and the distribution is approximated by a normal distribution. Modeling is performed as a mixture of distributions. As shown in FIG. 2, by approximating the spread shape of the vector with a normal distribution, it is possible to make the frequency value correspond to the average estimation of the normal distribution and the energy of the frequency component to the weight estimation of the mixed normal distribution.
  • the fundamental frequency estimate only the mean of one normal distribution corresponding to the fundamental frequency component (hereinafter referred to as the fundamental frequency estimate) has a degree of freedom, and depending on its position, the average of all remaining normal distributions The average position is determined.
  • harmonic structure model A model in which a single harmonic structure is modeled by such a constrained mixed normal distribution will be referred to herein as a “harmonic structure model” (see FIG. 3). If the fundamental frequency estimate is denoted by z, then each k of the harmonic structure model k
  • the average k is, in the log frequency domain
  • fc i fc, fc + log 2, ',', fc + log n,-'', fc + log iV fc ⁇ (1)
  • n is the label of the normal distribution corresponding to the nth harmonic component
  • N is the number of averages of the normal distribution that can be taken up to the Nyquist frequency for each harmonic structure model.
  • a spectrum in which a plurality of harmonic structures overlap (see FIG. 1) is modeled by further mixing the harmonic structure models, and this will be referred to as a multiharmonic structure model P (X).
  • X multiharmonic structure model
  • X is a logarithmic frequency.
  • the model parameter ⁇ of P (X) is
  • logp ⁇ , n , k log likelihood given by each normal distribution.
  • step 0 After the initial setting (step 0), the convergence of the iterative calculation by the following ⁇ step and ⁇ step is guaranteed, and the parameters, w that locally minimize the KL information amount of the model are obtained. be able to.
  • Examples of the spectrum analysis used in the present invention include a spectrum calculation by a discrete Fourier transform (including FFT) and a spectrum calculation by a wavelet transform.
  • This maximum likelihood estimation of the constrained mixture normal distribution model can be interpreted as a problem of classifying the minute energy into each sound by Clustering when the spectral density distribution is regarded as the frequency density distribution of fictitious minute energy.
  • the probability that the small energy that is located belongs to clusters n and k, and the log likelihood log P (n, k, x)
  • the cluster membership probability and the distance function between the cluster center are always calculated using g (x k + logn, ⁇ 2 ). There is no need to match the same function (eg normal distribution). For example, if all minute energy is assigned to the cluster at the center of the nearest cluster and the distance function is the square of the Euclidean distance, the membership probability and the distance function are represented by completely different functions. At this time, the problem of maximizing the evaluation function can be formulated as a k-means algorithm. Thus, multiple basic Maximum likelihood estimation of the constrained mixed normal distribution described above formulated as a frequency (F) estimation problem
  • the multiple fundamental frequency (F) estimation algorithm according to the present invention is composed of two processing processes.
  • the steps for minimizing the amount of K-L information have been described above. Now, assuming that the random error between the model and the spectrum follows a normally distributed probability distribution, the maximum likelihood parameter that maximizes the log likelihood of the random error is the force that originally corresponds to the least square error parameter. If the parameter minimizes the amount of KL information between distributions, it can be effectively estimated by the EM algorithm.Therefore, it is assumed that the parameter is a pseudo maximum likelihood parameter, and the sum of squared errors between the two distributions is calculated to calculate the pseudo maximum log The likelihood can be obtained. However, the maximum log likelihood is not always appropriate as a model comparison standard.
  • the information criterion is used as a criterion for selecting an appropriate model.
  • the information criterion include AIC (Akaike information criterion), ABIC (Akaike Bayesian information criterion), TIC (Takeuchi information criterion), BIC (Bayesian information criterion), and MDL (minimum stated length).
  • AIC is used as the information criterion.
  • AIC Kaike Information Criterion, Akaike Information Criterion
  • AIC -2 x (maximum log likelihood of the model)
  • the minimum K-L information of the model parameters obtained by the EM algorithm depends on the initial value, and often leads to an incorrect local solution. Therefore, in order to avoid the convergence of the fundamental frequency estimate k to an erroneous local solution, a harmonic structure model larger than the expected number of sound sources (the number of simultaneous speakers) is set uniformly and initially. The likelihood of obtaining the desired solution should be high. However, if the number of initially placed harmonic structure models is larger than the number of sound sources (the number of simultaneous speakers) and all objective solutions have been obtained, the multiple harmonic structure model will be Is apparently over-adapted. If the shape of the frequency component distribution can be sufficiently approximated by a normal distribution, it is sufficient if the number of harmonic structure models is equal to the number of sound sources (the number of simultaneous speakers). Therefore, unnecessary harmonic structure models are sequentially reduced, and the number of sound source models (the number of simultaneous speakers) is estimated by determining the number of harmonic structure models that minimizes the AIC. The specific processing procedure is shown below.
  • the number of harmonic structure models at the time of is assumed as the estimated number of simultaneous speakers.
  • FIG. 5 shows an example in which this process is actually performed on the spectrum shown in FIG.
  • the “+” in the lower diagram of FIG. 5 indicates the updated value of the fundamental frequency estimation value for each iterative calculation, and the broken line indicates the point in time (2) at which the model parameters / z, w were converged by the convergence judgment.
  • the line graph in the upper figure shows the AIC value at each time point.
  • the AIC takes the minimum value when the number of harmonic structure models is 3, so the estimated polyphony is 3 in this case.
  • the constraint on the weight w k given in the previous section is removed, and the degrees of freedom are given to the weights of all normal distributions. Since the sum of the weights is 1, the degree of freedom is strictly given to all but one of the weights. Therefore, the estimated value of the weight w k represents the approximated frequency component power ratio (the relative intensity between harmonic components). If the replaced is smaller than the true fundamental frequency (F), k 0 corresponding to the harmonic component that actually exists
  • the odd-order harmonic component should be expressed as a single tone model that is extremely small compared to the even-order harmonic component (Fig. 6). Also, ⁇ is the true fundamental frequency k
  • the fundamental frequency (F) is searched for from the integer multiple of the fundamental frequency estimate. Also base
  • N is the number of normal distributions whose upper limit can be in the logarithm of the Nyquist frequency.
  • Wave number (F) The maximum likelihood estimator of the weight w k at this time is the estimated frequency component power
  • the performance as a fundamental frequency extraction algorithm integrating these is evaluated by experiments on monaural music sound signals.
  • the signal analysis according to the present invention is performed by a signal analysis device mainly composed of a computer, and the signal analysis device includes a signal acquisition unit, a signal analysis unit (a processing device such as a CPU), and a display unit that displays an analysis result and the like. (Display screen), storage unit (including memory and external storage device), input unit (mouse, keyboard, etc.), control program for operating a computer, and the like.
  • the pitch correct rate was given by the following heuristic method.
  • the extracted fundamental frequency is assigned to the closest fundamental frequency of the pitch name.
  • the sound signal of the experimental data is divided into bars, and the number of frames in each bar is obtained. Given the number of note length frames (1/4 of the number of bars per quarter for quarter notes) according to the notes written on the score, When the fundamental frequency equivalent to the correct sound name could be extracted for the number of frames equal to or more than 1/2 the length of the sound frame, the sound was judged to be correct for one sound. Also, when a plurality of sounds with different octave positions are sounding simultaneously in the same pitch class, the correct answer was given if the fundamental frequency at the lower octave position could be extracted. The number of correct answers was visually counted according to the above criteria, and the correct answer rate was calculated using the total number of notes as the denominator.
  • FIG. 8 shows a part of the extraction result of the fundamental frequency for Kanon by violin trio along with the score.
  • the X mark indicates the fundamental frequency value extracted for each frame, and the broken line indicates the fundamental frequency corresponding to the name of the correct answer.
  • the pitch accuracy was 92.7%. As shown in Fig. 8, it can be seen that reasonable estimation results were obtained for the number of sound sources and the octave position as a whole.
  • the proposed method can estimate not only the multiple fundamental frequency (F) but also the single fundamental frequency (F) with high performance.
  • FIG. 10 shows the experimental results of the voice data of the female speaker and the male speaker, together with the results of the Cepstrum method. In addition, an example of the detection results of the fundamental frequency and
  • the low-frequency region and the high-frequency region were classified according to the threshold, and two local peaks in the high-frequency region were extracted.
  • the estimated correct answer rate is determined based on the referenceF pattern for frames considered to be simultaneously uttered, and
  • FIG. 13 shows the estimated accuracy rate of the Cepstrum method
  • FIG. 14 shows the estimated accuracy rate of the proposed method.
  • examples of the fundamental frequency (F) detection results of the proposed method are shown in the upper diagrams of Figs.
  • the power was about 41.6% —71.7%, whereas the proposed method was 72.6% —92.8%. Even if the number of simultaneous speakers is not given in advance, the fundamental frequency (F) and the number of
  • one of the process of detecting the number of speakers and each fundamental frequency detection process
  • the process of tracking the fundamental frequency based on the fundamental frequency detected in the immediately preceding frame tracking process
  • a plurality of fundamental frequencies are simultaneously detected sequentially. At the start of utterance, at the phrase boundary or when a new speaker intervenes, it is necessary to detect the number of speakers and their respective fundamental frequencies.
  • the ⁇ detection process '' is performed, and in the subsequent frames, the ⁇ tracking process '' is performed if the KL (Kullback-Le3 ⁇ 4ler) information amount of the multitone model and f (co) in the immediately preceding frame is below a certain threshold If the value is larger than the threshold value !, the “detection process” is performed again assuming that it is immediately after the start of a new phrase or immediately after the voice intervention by a new speaker.
  • the detection process includes a speaker number estimation step and a fundamental frequency detection step.
  • the convergence value of the model parameters obtained by the EM algorithm depends on the initial value, and often falls into the wrong local solution. Therefore, to increase the possibility that ⁇ locally converges to the target solution,
  • a harmonic structure model larger than the expected number of sounds is evenly arranged.
  • the unnecessary harmonic structure model is reduced, and the number when the AIC is minimized is used as the estimated number of speakers.
  • the specific procedure is shown below.
  • K basic averages are arranged in the limited frequency band.
  • the local optimal solution of in the previous step is not only the true fundamental frequency but also k
  • the true fundamental frequency is detected based on the strength of each harmonic component.
  • Ntk be the number of normal distributions that can be taken within the limited frequency band.
  • the t at which the AIC is minimized is the estimated fundamental frequency. Also, the final maximum likelihood estimate of w k is
  • the estimated value of the immediately preceding frame is used as the predicted value.
  • the frequency component power ratio is estimated using the maximum posterior probability estimation. Updated value of w and r k in the EM algorithm is it kn
  • chord 21 By introducing the frequency component power ratio parameter, a chord having the same spectral structure as a single tone may be estimated as multiple tones.
  • the present invention is a tool for converting music sound signal format (CD, MD, .wav file, etc.) to music performance format (MIDI signal, .mid file, etc.) such as 'editing' score conversion.
  • CD music sound signal format
  • MD .wav file
  • MIDI signal music performance format
  • MIDI signal .mid file, etc.
  • it can be used for ringtone creation, karaoke creation, score creation support, and the like.
  • the present invention can be applied to sound source separation and speech recognition.
  • FIG. 1 is an explanatory diagram showing that a spectrum of a multiple sound is composed of a superposition force of a plurality of harmonic structures.
  • FIG. 2 is a diagram illustrating that the observed spectrum with a spread can be approximated by a normal distribution.
  • FIG. 3 is a diagram for explaining maximum likelihood estimation of a multiharmonic structure model using an EM algorithm.
  • the horizontal axis represents logarithmic frequency and the vertical axis represents amplitude.
  • FIG. 5 is a diagram showing updating of the number of harmonic structure models and an estimation value of a fundamental frequency.
  • FIG. 6 The upper figure shows the observed spectrum, the horizontal axis shows the logarithmic frequency, the vertical axis shows the amplitude, and the lower figure shows the harmonic structure model when is the true fundamental frequency F.
  • FIG. The horizontal axis represents logarithmic frequency and the vertical axis represents probability density.
  • FIG. 8 is a diagram showing a fundamental frequency extraction result of a part of Kanon's score.
  • FIG. 10 is a table showing experimental results of a speech signal by one speaker, together with results of the Cepstrum method.
  • FIG. 11 The upper figure shows the detection of the fundamental frequency F in the audio signal of two speakers (two female speakers).
  • FIG. 12 The upper figure shows the detection of the fundamental frequency F in the audio signal of two speakers (two male speakers).
  • FIG. 13 is a table showing estimated accuracy rates of the Cepstrum method.
  • Fig. 14 is a table showing an estimated accuracy rate of the method of the present invention.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

多重音信号から発音数、基本周波数(F0)及び/あるいは周波数成分パワー比を検出する。複数の調波構造が混在したスペクトルのモデルを、単一の調波構造をモデル化した拘束つき混合正規分布モデルを混合することで構築する。本発明は二つの技術手段を含んでいる。一つは多重音信号の音源数推定であり、もう一つは各音源の基本周波数及び/あるいは周波数成分パワー比の推定である。拘束つき混合正規分布モデルのパラメータに関する推定と情報量基準に基づくアルゴリズムにより、発音数、それぞれの基本周波数及び/あるいは周波数成分パワー比を検出する。

Description

明 細 書
多重音信号解析方法
技術分野
[0001] 本発明は、多重音信号の解析法に係り、詳しくは、多重音信号から音源数を推定し、 スペクトルを分離し、さらに複数の基本周波数 (F )を推定する問題を最適化問題とし
0
て定式ィ匕し、解を求める方法に関するものである。
背景技術
[0002] 音声や楽器音などの複数音源の音響信号が混在したものを多重音と呼ぶ。多重音 の基本周波数推定は、音楽情報科学の分野にお!、て重要な要素の一つとして研究 されている。効用としては、自動採譜、楽器音分離、演奏者の演奏分析、音響信号か らの MIDI変換などが考えられる。
[0003] 従来より、音声の基本周波数推定法としてはケプストラム法や自己相関法などが用い られてきたが、音楽のように複数の基本周波数が混在する場合には適さな力つた。そ こで、音楽情報科学の分野にぉ 、て多重音または多声音楽を対象とした自動採譜 の研究が 1990年頃力 盛んになつたが、音源同士の基本周波数成分や倍音成分が 互いに複雑に重なり合うことや、ミツシングファンダメンタル現象などが原因となり、音 源数や各音源の基本周波数の推定は容易ではな力つた。
[0004] 柏野らは、和音構成音情報,和音遷移情報,楽音ごとの倍音比情報などの統計デー タによる仮説を統合したベイジアンネットワークを構成し,事後確率が最大となる仮説 の組 (音名、音源名)、周波数成分を出力する手法を提案した。この手法では、観測 パワースペクトルの極大点の集合の中から、各単音を構成する尤もらし 、周波数成 分を抽出することができるため、周波数解析における周波数分解能と同程度の分解 能で基本周波数および倍音周波数を得ることができる。
[0005] また後藤は、単一音の倍音構造を確率分布としてモデルィ匕し、その確率分布モデル の混合分布の重みを推定する手法を提案した。これは、あらゆる基本周波数の単一 音が同時発音をしていると見なして相対的に優勢な基本周波数を推定する手法であ り、目的音の基本周波数を高精度に得ることができる。このように推定基本周波数値 の分解能が高ければ高 、ほど、音源の分離合成技術や会話音声などのように非音 楽的な基本周波数推定の精度向上などが期待できる。
[0006] また、単一チャネル信号に対する多重 Fの推定の研究は、音楽情報科学以外にも、
0
雑音重畳下の音声認識、会議や討論などの状況を想定した同時複数音声認識、音 声強調、韻律分析、音声符号ィ匕ゃ圧縮などに大きく貢献する。
[0007] Chazanらは、長い分析窓において時間に伴って連続的に変化する基本周波数に対 して時間伸縮変換を最小二乗法により施すことで基本周波数を一定にしたのち、櫛 形フィルタを用いて音声分離を行う手法を提案した。また Wuらは、フィルタバンク処 理と、 Fダイナミクスを状態とした HMM (Hidden Markov Model)を用いた基本周波数
0
トラッキングによる雑音重畳化での多重 F推定手法を提案した。これらの手法は、精
0
度の高い基本周波数推定を実現し、良好な実験結果を得ているが、普遍性をもった 音源数 (同時発話者数)判定基準にっ 、ては議論されて!、な 、。
特許文献 1:特許第 3413634号
非特許文献 1 :柏野邦夫,中臺一博,木下智義,田中英彦: "音楽情景分析の処理モ デル OPTIMAにおける単音の認識,"電子情報通信学会論文誌, D-II,
Vol.J79-D-II,No.l l, pp.1751- 1761, 1996
非特許文献 2 :柏野邦夫,木下智義,中臺一博,田中英彦: "音楽情景分析の処理モ デル OPTIMAにおける和音の認識,"電子情報通信学会論文誌,
Vol.J79-D-II,No.l l, pp.1762- 1770, 1996
非特許文献 3 :後藤真孝:"音楽音響信号を対象としたメロディーとベースの音高推定, "電子情報通信学会論文誌, D-II, Vol.J84-D-II,No.l, pp.12-22, 2001
非特許文献 4 : M. Goto: "A Predominent-F0 Estimation Methodfor Real-world Musical Audio Signals: MAP Estimation for Incorporating Prior Knowledgeabout FOs and Tone Models, "Proceedings of CRAC— 2001},2001
非特許文献 5 : M. Goto: "A Predominent-FO Estimation Methodfor CD Recordings: MAP Estimation Using EM Algorithm for Adaptive Tone Models , " Proceedings of the 2001 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP〜2001, pp.V- 3365- 3368, 2001 特許文献 6 : D.Chazan,Y.Stettiner and D.Malah, "Optimal Multi-pitch Estimation Using the EM Algorithm for Co- channelSpeech Separation, 'Proc. ICASSP93}, Vol.2, pp.728— 731,1993
非特許文献 7 : M.Wu, D.Wangand G.J. Brown, " AMulti-pitch Tracking Algorithm for Noisy Speech,"lCASSP2002},Vol.1 , pp.369- 372, 2002
発明の開示
発明が解決しょうとする課題
[0008] 本発明は、多重音信号から複数の基本周波数 (F
0 )を抽出することを目的とするもの である。本発明のさらなる目的は、多重音信号の基本周波数抽出における音源数( 本明細書において、音源数とは、同時発音する基本周波数の数をさす。)を抽出す ることにある。本発明のさらに他の目的は、多重音信号から内在する倍音構造ごとに スペクトルを分離し、周波数成分パワー比の抽出を行うことである。
課題を解決するための手段
[0009] 本発明は、多重音信号の観測スペクトルを、複数の調波構造モデルからなる多重調 波構造モデルで推定することで多重音信号を解析する方法である。各調波構造モデ ルは、基本周波数成分に対応する一つの単峰形分布の代表値である基本周波数推 定値と、該基本周波数推定値によって決定される他の単峰形分布の代表値とを有す る。単峰形分布としては数々の分布が知られている力 一つの好ましい態様では、単 峰形分布は正規分布 (対数正規分布を含む)である。分布の代表値としては、平均、 中央値、最頻値が例示されるが、一つの好ましい態様では、分布の代表値は平均で ある。後述する実施形態では、多重音信号の観測スペクトルを、拘束つき混合正規 分布によりモデル化した調波構造モデルを複数混合した多重調波構造モデルで推 定する多重音信号の解析方法について説明するが、拘束つき混合正規分布により モデル化した調波構造モデルは、基本周波数成分に対応する一つの正規分布の平 均である基本周波数推定値と、該基本周波数推定値によって決定される他の正規分 布の平均とを有している。
[0010] 多重調波構造モデルにおけるモデルパラメータは、調波構造モデルの各単峰形分 布の代表値、重み、分散から成る。代表値パラメータは、基本周波数推定値を構成 する代表値を含む調波構造モデルの各単峰形分布の各代表値により構成されるが 、代表値パラメータにおいては、基本周波数推定値のみが自由パラメータであり、他 の代表値は基本周波数推定値によって拘束されるパラメータである。重みパラメータ は、調波構造モデルごとの重み及び調波構造モデルにおける単峰形分布の重みの 積として表される。分散パラメータは、一つの態様では、既知パラメータとしてモデル に与えられる。
[0011] 本発明は二つの技術手段を含んでいる。一つは多重音信号の音源数推定であり、も う一つは各音源の基本周波数及び Zあるいは周波数成分パワー比の推定 (調波成 分エネルギー検出)である。二つの技術手段は互いに独立して成立するものである 力 二つの技術手段を組み合わせることで、多重音信号から音源数を推定し、スぺク トルを分離し、さらに複数の基本周波数 (F )を推定することができる。さらに、後者の
0
技術手段は、基本周波数の検出と、周波数成分パワー比の検出という二つの技術手 段を含んで ヽる。基本周波数検出と周波数成分パワー比検出は検出ステップにお!/ヽ ては共通するが、それぞれ独立の技術手段として採用することが可能である。
[0012] 多重音信号の音源数推定は、モデルパラメータを推定するにあたり、所与の一つ又 は複数の調波構造モデルに基づ 、てモデル数を減少あるいは Zおよび増力!]させな がら情報量基準を用いて適切な複数の調波構造モデルを選択し、選択された調波 構造モデルの数を推定音源数とするものである。モデル数の減少には、モデルの削 除やモデルの統合が含まれる。モデル数の増加には、モデルの分裂や新たなモデ ルの生成が含まれる。一つの態様では、多重音信号の音源数推定は、推定される音 源数より多い数の調波構造モデルを用意し、尤度への寄与度が少ないと判断される 調波構造モデルを削除しながら情報量基準を用いて適切な複数の調波構造モデル を選択する。尤度への寄与度が少ないと判断される調波構造モデルは、調波構造モ デルの調波構造ごとの重みが小さいモデルである。より具体的には、すべての調波 構造モデルの中で重みが最小のモデル、あるいは、隣接する基本周波数推定値が 所定の閾値より近接した場合には、重みが小さい方のモデル、のいずれかに該当す るモデルが削除される。この場合、調波構造モデルにおける各単峰形分布の重みを 固定しておいても良い。後述する実施例では、情報量基準として AICを採用し、 AIC が最小となるときの調波構造モデル数を推定音源数として 、る。調波構造モデル数 を減少させながら適切なモデルを選択することにつ 、て説明したが、調波構造モデ ル数を増加させながら適切なモデルを選択するものでもよい。例えば、ある調波構造 モデルの代表値が他の代表値力 孤立しているものは分裂させた方が良い場合が ある。一つの基準としては、「特定のモデルの代表値力 それと最も近くにある他のモ デルの代表値との距離がある一定閾値より大きい場合に、その特定のモデルを 2つ に分裂する」ことが例示される。この場合、もし分裂したことのメリットがな力つた場合に は 2つの代表値は再び引きつけ合い、また統合されるし、 2つに分裂したことで多峰 分布がうまく表現できた場合には適切な距離を保って収束するのではと推測される。
[0013] 基本周波数あるいは Zおよび周波数成分パワー比の検出は、推定音源数の基とな つた各調波構造モデルにぉ ヽて、基本周波数推定値を構成する代表値を少なくとも 整数倍および Zあるいは整数分の 1倍の値に順次置き換えながら少なくとも調波構 造モデルの各単峰形分布の重みを推定するにあたり、情報量基準を用 、て適切な 置き換え値及び重みを選択し、選択された置き換え値あるいは Zおよび重みを、基 本周波数あるいは Zおよび周波数成分パワー比の推定値とするものである。一つの 態様では、基本周波数推定値の置き換え値は、基本周波数推定値の少なくとも 1倍
、 2倍、 3倍、 2分の 1倍、 3分の 1倍、 3分の 2倍、 2分の 3倍からなる群から選択された 2つ以上の値である。一つの態様では、パラメータの最尤推定量は、基本周波数推 定値 (推定代表値)を置き換え値に固定して単峰形分布の重みのみを更新しながら 求める。基本周波数は、置き換えられた基本周波数推定値(1倍を含む)から求め、 周波数成分パワー比は、単峰形分布の重み力 求める。後述する実施例では、情報 量基準として AICを採用し、 AICが最小となるときの置き換えられた基本周波数推定 値を推定基本周波数、分布の重みを推定周波数成分パワー比とする。
[0014] 本発明は、推定手法と情報量基準を用いるものであり、後述する実施例では、一つ の好ま 、態様として、 EMアルゴリズムを用いたモデル/スペクトル間の K-L情報量 最小化によるモデルパラメータ推定 (最尤推定法に相当する)と両分布間の二乗誤 差に基づく対数尤度を用いて計算される AICとの組み合せについて説明する。しか しながら、多重調波構造モデルにおけるモデルパラメータの推定手法としては、最尤 推定法の他に、最大事後確率推定法 (MAP推定)、変分ベイズ法が含まれる。また 、一つの態様では、モデルパラメータの推定は、観測スペクトルと多重調波構造モデ ル間の K-L情報量を評価尺度として行 、、モデルパラメータの最尤推定量を K-L情 報量を最小化するパラメータで近似する。本発明が採用する情報量基準についても AIC (赤池情報量基準)に限定されるものではなぐ ABIC (赤池ベイズ型情報量規準 )、 TIC (竹内情報量基準)、 BIC (ベイズ情報量基準)、 MDL (最小既述長)、 GIC ( 一般化情報量基準、正則化法 (罰則つき最尤法)、 EIC (ブートストラップ情報量基準 )、 PIC (予測情報量基準)、クロスノくリデーシヨン、 FPE (最終予測誤差)、マローの C 基準、ハナン クインの基準、さらに、これらの近似的な情報量基準あるいは等価の
P
情報量基準を含み、例えば、 MAP推定と BICあるいは MDLの組み合わせや変分 ベイズ法 (モデル選択を同一の枠組として含む)を採用することができる。また、モデ ルパラメータの推定に用いる推定アルゴリズムとしては EMアルゴリズム以外の既知 の手法、例えば、最急降下法を EMアルゴリズムに代えて、あるいは、 EMァルゴリズ ムと組み合わせて採用することができる。また、本発明は、本発明に係る信号解析方 法をコンピュータに実行させるためのコンピュータプログラム、あるいは、このようなコ ンピュータプログラムを記録させた記録媒体としても提供される。
発明の効果
[0015] 本発明によれば、音源数が未知の多重音信号力 音源数 (発音数)を検出すること 力 Sできる。また、多重音信号力も基本周波数 (音の高さ)を精密な値として検出するこ とができる。また、多重音信号スペクトル力 各調波構造を分離し、周波数成分パヮ 一比を検出することができる。
発明を実施するための最良の形態
[0016] [A]拘束つき混合正規分布モデルの最尤推定
[A - 1]多重調波構造モデル
短時間スペクトルの解析では、解析区間に窓関数を掛けることが一般的である。その ため、周波数が一定の単一正弦波の信号であっても、線スペクトルではなぐ左右に 広がりをもつスペクトルが観測される。これは、窓関数のフーリエ変換と線スペクトルと の畳み込みを行うことに相当するためである。さらに分析窓区間内で周波数が連続 的に変化する場合、それに応じた広がりをもつスペクトルが観測されることになる。こ れらに起因する基本周波数成分や調波成分の広がりにより、異なる信号同士の周波 数成分が重なり合い、近接する周波数成分の分離や正確な基本周波数 (F )あるい
0 は高調波周波数の検出が困難となる。
[0017] このように広がって観測される周波数成分を各周波数の出現頻度分布あるいは確率 分布と見なし、その分布を正規分布により近似することで、単一の調波構造を有する スペクトルを複数の正規分布の混合分布としてモデルィ匕する。図 2に示すように、ス ベクトルの拡がり形状を正規分布で近似することで、周波数値を正規分布の平均推 定、周波数成分のエネルギーを混合正規分布の重み推定に対応させることができる 。調和性の保持のため、基本周波数成分に対応する 1つの正規分布の平均 (これを 以後基本周波数推定値と呼ぶ)のみが自由度をもち、その位置に応じて残りのすべ ての正規分布の平均の位置は決定される。単一の調波構造をこのような拘束つきの 混合正規分布によりモデルィ匕したものを本明細書にぉ 、て「調波構造モデル」と呼 ぶことにする(図 3参照)。基本周波数推定値を; z と置けば、調波構造モデル kの各 k
平均 kは、対数周波数領域において、
[数 1] fc = i fc, fc + log 2,',', fc +log n,- ' ' , fc + log iVfc} (1) のようなベクトルで表される。ただし、 nは n次高調波成分に対応する正規分布のラベ ルを、 Nは調波構造モデルごとの Nyquist周波数まで取り得る正規分布の平均の数を k
表す。
[0018] 複数の調波構造が重なり合うスペクトル(図 1参照)を、調波構造モデルをさらに混合 することによりモデルィ匕し、これを多重調波構造モデル P (X)と呼ぶことにする。ただし
Θ
、 Xは対数周波数とする。 P (X)のモデルパラメータ { Θ }は、
Θ
[数 2]
W = (M^ Wk ^ I & = 1, · · -,Κ} (2) であり、 wk={wk , · · · , wk , - - -wk }は調波構造モデル kの各正規分布の重み、 σは 分散(σは固定であり、実験においては予め与えられる定数とする)、 Κは混合された 調波構造モデルの数をさす。
[Α— 2] ΕΜアルゴリズムによるモデルパラメータ推定
正規ィ匕した観測スペクトル χ)と上記した多重調波構造モデル Ρ (X)との
Θ
Kullback- Leibler情報量 D( θ )は以下となる。
[数 3]
DW (3)
Figure imgf000010_0001
D( θ )を最小化するモデルパラメータを求めることと、モデル Ρ (X)の平均対数尤度
Θ
( χ)を対数周波数 Xの出現頻度を表す確率分布と解釈した場合、対数尤度の Xに関 する期待値)を最大化するモデルパラメータを求めることは等価である。そこで、 Xにつ いて、モデルパラメータ Θを Θ (バー)に更新したときのモデルの平均対数尤度の差は 画 (^) logP^(x) -/( ) log ,(2:) = /( 。g^ (4)
ΡΘ {Χ)
となる。 Dempsterらは、式 (4)において x)を確率密度分布関数とし、平均対数尤度を 最大にするために ΕΜアルゴリズムを定式ィ匕した。 Xがどの正規分布によって生成さ れたかは一意に決定できないため、これを直接最大化することはできない。そこで両 辺に対し、 Xがどの正規分布力 生成されたかを表す P (n, k|x)についての期待値を
Θ
とることで Q関数と呼ぶ以下のような評価関数
[数 5]
Q{e, 6) {x) log Pd (x,n,k)dx (5)
Figure imgf000010_0002
を導出することができ、
[数 6]
Figure imgf000011_0001
が成立するため、 Q関数を最大化する Θ (バー)を求めることで、 Xに関するモデルの 平均対数尤度を単調に増カロさせることができる。 g(x|x
0, σ 2)を平均 X、分散 σの正規
0
分布とすると、 P (n, k|x)は、
Θ
[数 7]
Figure imgf000011_0002
と書け、 logp χ, n, k)は各正規分布が与える対数尤度なので、
Θ (バー )(
[数 8]
Figure imgf000011_0003
である。
[0020] 以上より、初期設定 (ステップ 0)を経て、以下のような Εステップと Μステップによる反 復計算の収束性は保証され、モデルの K-L情報量を局所最小化するパラメータ , wを得ることができる。
[0021] (1)ステップ 0:
(初期設定)
モデルパラメータ μ , wの初期値を与える。 (2) E-ステップ:
式 (5)により Q( 0 , 0 (バー))を計算する。
(3) M-ステップ:
Q( θ , Θ (バー》を最大化する Θ (バー)を計算する。
[数 9]
Θ = &rgma.x Q{6, S) (11)
Θ
Θを更新後、 Ε-ステップに戻る。
尚、正規分布に代えて対数正規分布を用いる場合であっても、実質的に同様のス テツプを適用することができる。また、本発明に用いるスペクトル解析には、離散的フ 一リエ変換 (FFTを含む)によるスペクトル計算、ウェーブレット変換によるスペクトル 計算が例示される。
[0022] [Α— 3] Clusteringとしての解釈
この拘束つき混合正規分布モデルの最尤推定は、スペクトル密度分布を架空の微小 エネルギーの度数密度分布と捉えた場合、微小エネルギーを Clusteringにより各音 へ分類する問題であると解釈することもできる。
[0023] 正規分布の平均 μ k+lognをクラスタ n、 kの中心と考えれば、事後確率 P (n, k|x)を xに
Θ
位置する微小エネルギーがクラスタ n、 kに帰属する確率、対数尤度 log P (n, k, x)を
Θ
クラスタ kの中心と χに位置する微小エネルギーとの距離を表す関数と見なすことが できる。 Clusteringの評価関数は一般に、各微小エネルギーの位置と帰属するクラス タ中心との距離の自乗の和で表されるため、上記の観点により Q関数と同一と見るこ とができる。ただし、 Q関数では事後確率 P (n, k|x)と対数尤度 log P (n, k, x)は同一
Θ Θ
の確率分布に基づいて計算されるのに対し (いずれも g(x k+logn, σ 2)を用いて計 算される)、 Clusteringにおいては必ずしもクラスタ帰属確率とクラスタ中心との距離関 数は同一の関数 (正規分布など)を対応させる必要はない。例えば、微小エネルギー を最近傍のクラスタ中心のクラスタにすべて帰属させ、距離関数をユークリッド距離の 自乗とした場合、帰属確率と距離関数は全く別の関数で表現される。このとき評価関 数の最大化問題は、 k-meansアルゴリズムとして定式化できる。このように、多重基本 周波数 (F )推定問題として定式化される前述した拘束つき混合正規分布の最尤推
0
定を包含する、 Clusteringの考え方による多重基本周波数 (F )推定手法を「
0
Harmonic Clusteringと呼んでいる。クラスタリングの考えを採用した場合には、前述 の「調波構造モデル」は「倍音クラスタ群 (倍音構造としての拘束をもつ複数のクラス タ)」、「平均」は「クラスタ重心」、「基本周波数推定値」は「基本クラスタ重心」と言い換 えることができる。
[0024] [B]多重基本周波数 (F )推定アルゴリズム
0
本発明に係る多重基本周波数 (F )推定アルゴリズムは二つの処理プロセスにより構
0
成される。音源数 (含む、同時発話者)推定検出プロセス、及び、基本周波数 (F )お
0 よび周波数成分パワー比検出プロセスである。これらのプロセスは情報量基準に基 づいて検出される。上記までは K-L情報量最小化のステップについて説明した。今、 モデルとスペクトル間の偶然誤差が正規分布型の確率分布に従うと仮定した場合、 偶然誤差の対数尤度を最大化する最尤パラメータは本来最小二乗誤差パラメータに 相当する力 上記のように両分布間の K-L情報量を最小化するパラメータであれば E Mアルゴリズムにより効果的に推定できるので、近似的にこれを疑似最尤パラメータと 考え、両分布間の二乗誤差総和を計算して疑似最大対数尤度を求めることができる 。しかし、モデルの比較基準として最大対数尤度は必ずしも適切ではない。そこで、 複数のモデルが候補にあるとき、適切なモデルを選択する基準として情報量基準を 用いる。情報量基準としては、 AIC (赤池情報量基準)、 ABIC (赤池ベイズ型情報量 規準)、 TIC (竹内情報量基準)、 BIC (ベイズ情報量基準)、 MDL (最小既述長)が 例示されるが、一つの好ましい態様では、情報量基準として AICが用いられる。
[0025] [B-1]AICによるモデルの選択基準
1つのモデルに対する最尤パラメータを求めることができ、自由パラメータ数に応じて モデルの候補が複数個あるとき、その中から適切なモデルを選択する規準が必要と なる。そこで、赤池によって提唱された AIC(Akaike Information Criterion,赤池情報 量規準)を導入する。 AICは、
[数 10] AIC = -2 x (モデルの最大対数尤度)
+2 x (モデルの自由パラメータ数) 2) で与えられ、適切な自由パラメータ数のモデルを選択する問題において有効である ことが知られている。
[0026] [B-2]音源数(同時発話者数)検出プロセス
EMアルゴリズムにより得られるモデルパラメータの最小 K-L情報量は初期値に依存 し、しばしば誤った局所解に陥る場合がある。そこで、基本周波数推定値 kの誤つ た局所解への収束を回避するため、予想される音源数(同時発話者数)より多めの数 の調波構造モデルを満遍なく初期配置しておくことで目的とする解が得られる可能 性は高くなるはずである。ただし、このように初期配置された調波構造モデルの数が 音源数(同時発話者数)より多ぐかつすベての目的解が得られているならば、多重 調波構造モデルは観測スペクトルに対して明らかに過適応を起こしていると言える。 もし、周波数成分の分布の形状が正規分布で十分近似可能であれば、調波構造モ デルは音源数(同時発話者数)と同数あれば十分なはずである。そこで、不必要な調 波構造モデルを順次削減して 、き、 AICが最小となる調波構造モデル数を判定する ことで音源数(同時発話者数)を推定する。具体的な処理手順を以下に示す。
[0027] (1)任意の周波数区間に基本周波数推定値 1, · · · , k}の初期値を設定する。
(2) [A-2]で述べた EMアルゴリズムにより最小 K-L情報量を求める。ただし、 ここでは正規分布の重み w kに関して
[数 11]
Figure imgf000014_0001
という拘束を与える。これは、正規分布ごとではなく調波構造モデルごとの重みを規 準として、優先的に削減すべき調波構造モデルを決定するためである (後述)。この場 合、 M-ステップにおける , wkの更新値は式 (5)のそれぞれのパラメータに関する
k
偏微分を 0と置くことで得られ、以下で与えられる。
Figure imgf000015_0001
Pn (^)f(^) dx
Figure imgf000015_0002
(3)最小 KL情報量パラメータにおけるモデルとスペクトル間の二乗誤差総和 (積分) により求めた最大対数尤度を用いて AICを算出する。調波構造モデルごとに 2つの 自由パラメータ μ , wkがあるので、自由パラメータ総数は 2 X Kである。 AICが最小と k
なるときの調波構造モデル数を推定同時発話者数とする。
(4)以下の 、ずれかを満たす調波構造モデルを削減し、残った調波構造モデル数 を K (バー)とする。 K= Κ (バー)として(2)に戻る。
[0028] (4-1)すべての調波構造モデルの中で重み wkが最小のもの。これは、重み最小の 調波構造モデルは全体のモデルが与える期待対数尤度に及ぼす重要度が低いと見 なせるためである。
(4-2)隣接する 2つの基本周波数推定値がある一定閾値より近接した場合、 wkが小 さい方。これは、 1つの極値に 2つの基本周波数推定値が収束していると考えられる ためである。
すなわち、情報量基準に基づき適切な調波構造モデル数となるまで重要度 (調波 構造ごとの重み wk)の低 、ものから順に削除して!、く。
[0029] このプロセスを図 4のスペクトルに対して実際に行った例を図 5に示す。図 5の下図に おける「+」は基本周波数推定値の反復計算ごとの更新値、破線が( 2 )において収束 判定によりモデルパラメータ/ z , wが収束したと見なされた時点を表す。上図の折れ 線グラフが各時点での AICの値を表す。調波構造モデル数が 3のときに AICは最小 値をとるため、この場合推定同時発音数は 3となる。
[0030] [B— 3]基本周波数 (F )および周波数成分パワー比検出プロセス 前述したプロセスにおいては、基本周波数推定値 が真の基本周波数 (F )とその k 0 整数倍あるいは整数分の 1倍の値のときも K-L情報量を極小にすると考えられるため 、得られる基本周波数推定値は必ずしも真の基本周波数 (F )であるとは限らない。
0
そこで、前述のプロセスで得られる基本周波数推定値 の最小 K-L情報量推定値 k
1S 真の基本周波数 (F )あるいはその整数倍か整数分の 1倍の値であることを前提と
0
し、 μ をそれぞれの値に順次置き換えながら何らかの規準に基づいて真の基本周 k
波数 (F )を検出する。
0
[0031] ここで、前節で与えた重み w kに関する拘束を外し、すべての正規分布の重みに関 して自由度を与えることにする。重みの総和は 1なので、厳密には、自由度は 1つを除 く残りすベての重みに対して与えられる。従って、重み w kの推定値は近似された周 波数成分パワー比 (調波成分間の相対的な強度)を表すことになる。もし、置き換え た が真の基本周波数 (F )より小さい場合、実際に存在する調波成分に対応する k 0
ガウス成分以外の成分が実際に存在してもしなくてもモデルとスペクトル間の二乗誤 差総和に変化はほとんど及ぼさないと考えられるため、過適応を起こしていると言え る。例えば、 μ が真の基本周波数 (F )の 1/2に対応した場合に重み w kに関して Ε k 0 n
Mアルゴリズムを行えば、偶数次の調波成分に比べて奇数次の調波成分が極端に 小さい単一音のモデルとして表現されるはずである (図 6)。また、 μ が真の基本周波 k
数 (F )の整数倍の場合には、真の基本周波数 (F )と比較して二乗誤差の総和 (対
0 0
数尤度)は十分に小さいと考えられる。この観点から、前節のプロセス同様、 AICに 基づいて真の基本周波数 (F )を検出することができると考えられる。前節のプロセス
0
にお 、て残った調波構造モデルすべてにつ!、て以下の手順を行 、、基本周波数 (F )および周波数成分パワー比の検出を行う。尚、次に述べる手順では、後述する実
0
験を行う上での便宜のため、基本周波数推定値を整数倍したものの中カゝら基本周波 数 (F )を探索しているが、基本周波数推定値を整数分の 1倍したものの中からも基
0
本周波数 (F )を探索することが望ましい。
0
[0032] (1)調波構造モデル kにおける基本周波数推定値を +logtに置き換える。ただし、 t k
は初期値 1の整数とする。このとき、上限がナイキスト周波数の対数である範囲内にと りうる正規分布の数を N する。 (2) EMアルゴリズムにより最小 K-L情報量パラメータを求める。ここでは、更新すべき パラメータは各正規分布の重み w kだけである。 M-ステップにおける w kの更新値 は以下で与えられる。
[数 13] =ゾ ( dx (16)
(3)最小 Κ-L情報量パラメータにおけるモデルとスペクトル間の二乗誤差総和 (積分) により求めた最大対数尤度を用いて AICを算出する。このとき、自由パラメータ総数 は N 1である。 tを 1増やし、 ( 1 )に戻る。 AICが最小となるときの +logtを推定基本周 k k
波数 (F )とする。また、この時の、重み w kの最尤推定量が、推定周波数成分パワー
0 n
比に相当する。
[0033] これらを統合した基本周波数抽出アルゴリズムとしての性能を、モノラルの音楽音響 信号を対象とした実験により評価する。本発明に係る信号解析はコンピュータを主要 構成とする信号解析装置によって行われ、該信号解析装置は、信号取り込み部、信 号解析部 (CPU等の処理装置)、解析結果等を表示する表示部 (表示画面)、記憶 部 (メモリ及び外部記憶装置を含む)、入力部(マウス、キーボード等)、コンピュータ を動作させる制御プログラム等を備えて 、る。
実験例 1
[0034] 2段階の処理行程を統合した基本周波数抽出アルゴリズムの動作実験を、モノラル 音楽音響信号に対して行った。スペクトル解析は、サンプリング周波数を 44.1kHz,フ レーム長を 25ms,フレームシフトを 10msとし、 Hamming窓を窓関数として FFT (高速フ 一リエ変換)を行い、短時間スぺ外ル系列を得た。実験に用いた対象曲の曲名、演 奏方式、演奏者は図 7の通りである。
[0035] 性能評価の目安として以下のヒューリスティックな方法により音名正解率を与えた。抽 出した基本周波数を最も近 、音名の基本周波数に割り当てる。実験データの音響信 号を 1小節ごとに分割し、各小節のフレーム数を得る。楽譜に記譜されている音符に 応じて各音の音長フレーム数 (四分音符の場合は 1小節のフレーム数の 1/4)を与え、 音長フレーム数の 1/2以上のフレーム数分だけ正解音名に相当する基本周波数を抽 出できた場合に、 1つの音に対して正解とした。また、同一のピッチクラスで、オタター ブ位置の異なる複数の音が同時発音している場合には、オクターブ位置の低い方の 基本周波数を抽出できていれば、正解とした。正解した数を以上の基準に従って目 視により数え、総音符数を分母として正解率を計算した。
[0036] ヴァイオリン三重奏による Kanonに対する基本周波数の抽出結果の一部をそれぞれ 楽譜とともに図 8に示す。 X印がフレームごとに抽出した基本周波数値を、破線が正 解音名に相当する基本周波数を表す。音名正解率は、 92.7%であった。図 8の通り、 全体として音源数およびオクターブ位置に関して妥当な推定結果が得られていること が分かる。
実験例 2
[0037] 上述した基本周波数 (F )検出アルゴリズムの性能を確認するため、基本周波数 (F )
0 0 検出方法としてよく知られる Cepstrum法と比較実験を行った。 ATR音声データベース より音声データとハンドラベルによる基本周波数(F )パターンの referenceデータを用
0
いた。すべての音声信号はサンプリング周波数 12kHzでディジタルィ匕され、フレーム 長 64ms、フレームシフト 10msのもとで Hamming窓をかけて周波数解析 (FFT)を行!、、 スペクトル系列を得た。同時発話者数検出プロセスにおいて、初期調波構造モデル 数は 4とし、基本周波数推定値を配置する周波数範囲は 70Hzから 140Hzとした。また 、すべての正規分布の分散の値は 0. 45とした。 fymおよび myiから始まる音声ファイル 名はそれぞれ女性話者と男性話者による音声信号データをさす。評価基準として、 検出された基本周波数 (F )が基本周波数 (F )パターンの referenceデータの値から
0 0
5%以上外れた場合は、 gross errorと見なした。
[0038] 話者一人による音声信号に対する実験について説明する。提案手法が多重基本周 波数 (F )についてだけではなく単一基本周波数 (F )についても高い性能で推定で
0 0
きることを確認するため、話者一人による単一チャネル音声信号に対して動作実験を 行い、単一基本周波数 (F )推定手法として広く知られる Cepstrum法と推定正解率の
0
比較を行った。推定正解率 (Accuracy)は、総フレーム数に対する gross error以外の フレーム数の割合とした。 [0039] 女性話者および男性話者それぞれの音声データにおける実験結果を Cepstrum法の 結果と併せて図 10に示す。また、基本周波数お )検出結果の例を図 9上図に示し、
0
対応する reference基本周波数 (F )パターンを図 9下図に示す。結果より、推定正解
0
率 92. 4%— 99. 0%を得た。また、すべての音声信号に対して Cepstrum法に比べて推 定正解率が高ぐ多重基本周波数 (F )だけではなく単一基本周波数 (F )推定手法
0 0 としても高 、性能であることが確認できた。
[0040] 次に、話者二人による同時発話音声信号に対する実験について説明する。話者二 人による単一チャネル音声信号に対して動作実験を行 、、同様に Cepstrum法との比 較を行った。 C印 strum法は複数話者による発話には原理的には適用できな 、ため、 厳密には客観評価の比較対象とはならないが、提案手法の客観評価のための参考 基準としては十分であると考えた。
[0041] 2つの音声データの信号波形を人工的に加算したものを同時発話音声データとし、 SSR(signal-to-signal ratio)は OdBとした。 Cepstrum法による基本周波数(F )検出は、
0 低ケフレンシ一領域と高ケフレンシ一領域を閾値により区分し、高ケフレンシ一にお ける 2つのローカルピークを抽出することで行った。推定正解率は、同時発話されて いると見なされるフレームを referenceFパターンから判断し、同時発話時のフレーム
0
総数に対する gross error以外のフレーム数の割合とした。
[0042] Cepstrum法の推定正解率を図 13、提案手法の推定正解率を図 14に示す。また、提 案手法の基本周波数 (F )検出結果の例を図 11, 12の上図に示し、それぞれに対応
0
する referenceFパターンを図 11, 12の下図に示す。 Cepstrum法では、推定正解率
0
力 S41. 0%— 71. 7%程度であつたのに対し、提案手法では、 72. 6%— 92. 8%であった。 同時発話者数を事前に与えなくても AICにより基本周波数 (F )および話者数を高精
0
度に推定することができ、情報量規準が多重基本周波数 (F )推定に十分有効である
0
ことが確認できた。
[0043] [C]拘束つき混合正規分布モデルの MAP推定による同時発話音声の基本周波数 追跡及び調波構造分離
[C—1]拘束つき混合正規分布モデルの定式ィ匕
短時間周波数解析では、一般に解析区間に窓関数を掛けるため、左右に広力 ^をも つスペクトルが観測される。窓関数として正規分布窓を用いれば、スペクトルの広がり の形状が理論的に正規分布の形状となるので、基本周波数成分に対応する正規分 布の平均だけが自由度をもつ拘束つき正規混合分布により単一音の調波構造をモ デルィ匕できる。 k番目の調波構造モデルの各平均は、
[数 14]
Figure imgf000020_0001
· · · , ημ/c , ' · · , と書ける。ただし、 ηは η次高調波成分に対応する正規分布のラベルを、 Νは正規分
k
布の数を表す。
K個の音の調波構造が重なり合うスペクトルを、単一の調波構造モデルを K個混合 することによりモデル化し、モデルパラメータを、
[数 15]
Figure imgf000020_0002
とする。 wk , σ kは n次成分の重み、分散を表す。スペクトル分布を正規化して確率 変数 (周波数) ωの確率分布 f ( co )とみなせば、 Θの事後確率を最大化する Θは、以 下の式で表される。
[数 16]
Θ (17)
Figure imgf000020_0003
ρ ( θ ) « θの事前確率を表す。 ΕΜアルゴリズムにより以下の Q関数を最大化する Θ (ハット)を 0の更新値として逐次的に計算することで局所最適解を得ることができる。
[数 17] Q (
Figure imgf000021_0001
[0044] [C-2]同時発話音声の基本周波数追跡アルゴリズム
話者数および各基本周波数を検出する処理 (検出処理)と直前フレームにおいて検 出された基本周波数に基づき基本周波数を追跡する処理 (追跡処理)の ヽずれか一 方をフレーム毎に実行し、逐次的に複数の基本周波数を同時検出していく。発話開 始時、フレーズ境界や新たな話者の音声介入時などにおいては、話者数とそれぞれ の基本周波数を検出する必要がある。初期フレームは「検出処理」を実行し、以降の フレームでは、直前フレームでの多重音モデルと f ( co )の KL(Kullback-Le¾ler)情 報量が一定閾値以下の場合は「追跡処理」を、閾値より大き!、場合は新たなフレーズ の開始直後あるいは新たな話者による音声の介入直後と見なして改めて「検出処理 」を行う。検出処理は、話者数推定ステップと基本周波数検出ステップカゝら成る。
[0045] [C 3]話者数推定ステップ
EMアルゴリズムにより得られるモデルパラメータの収束値は初期値に依存し、しばし ば誤った局所解に陥る。そこで、 μ が目的解へ局所収束する可能性を高くするため
k
、予想される発音数よりも多めの調波構造モデルを満遍なく初期配置する。ここで、 AICを導入し、適切な自由パラメータ数を推定する。すなわち、不必要な調波構造モ デルから削減していき、 AICが最小となるときの数を推定話者数とする。具体的な手 順を以下に示す。
(1)限定した周波数帯域内に基本平均を K個配置する。
(2) EMアルゴリズムにより Θの最尤推定値を求める(事前分布を一様分布とする)。 ここで、正規分布の重みは kのみに依存する調波構造モデルごとの重みパラメータ w kとする。尚、調波成分の強度比を事前にモデルに与えることも可能である。式(18) を最大化する , wk, a kの更新値は偏微分を 0と置くことで以下のように求められ
k n
る。
[数 18]
Figure imgf000022_0001
— oo
J一 oo P(7 Ιω,の ― ημ„)2άω
Figure imgf000022_0002
ΧΠο Ρ(η, ^,の/ (w)d j
(3) AICを算出する。 AICが最小値をとるときの調波構造モデルの数 K (ハット)を推 定発話者数とする。
(4) wkが最小の (尤度への関与が最も低ぐ不必要とみなせる)調波構造モデルを削 除する。 σ kを大きめの値に置き換えて、ステップ(2)に戻る。尚、分散 σ kの更新は 、分散の推定値を得るためではなぐ大きい初期値を与えることで kの目的解への 収束を促進させるために行う。
[C 4]基本周波数検出ステップ
前ステップにおいて求められる の局所最適解は、真の基本周波数だけではなくそ k
の整数倍あるいは整数分の 1倍のいずれかに対応する可能性がある。ここでは、各 調波成分の強度を手がかりとして真の基本周波数を検出する。 μ
kを整数倍/整数分 の 1倍に置き換えながら、その都度正規分布ごとの重み wkの最尤推定値から調波 成分の強度比を推定する。 AICに基づき、適切な の位置を推定する。前ステップ k
にお 、て残った調波構造モデルすべてにつ!、て以下のステップを行う。
(1)調波構造モデルの 1次成分の平均を t に置き換える。但し、 tを初期値 1の自 k
然数とする。限定した周波数帯域内までとり得る正規分布の数を Ntkとする。
( 2) EMアルゴリズムにより wk , σ kの最尤推定値を求める。 Mステップにおける更新 値は、式(22)、式(21)となる。
[数 19] p(n, k\ , θ) άω
(3)自由パラメータ数を として AICを算出する。 tを 1増やし、ステップ(1)に戻る。
k
AICが最小となる t が推定基本周波数となる。また、最終的な wkの最尤推定値が
k n
各音の周波数成分パワー比 (調波成分強度比)の推定値となる。
[C 5]追跡処理
1つのフレーム区間では、ある時点の基本周波数と直前の基本周波数との間には強 い依存関係があるはずである。そこで、直前フレームでの基本周波数の検出結果を μ の事前分布に反映させ、最大事後確率 (MAP)推定により をフレーム毎に更 k k
新 (追跡)する。 IX
kの(直前フレームでの
kの推定値に基づく)予測値を (ハット) k とし、 μ の事前分布を、 μ (ハット)を平均、 Vを分散とした正規分布とすれば、式(1 k k
8)より EMアルゴリズムの Mステップにおける μ の更新値は、
[数 20]
Figure imgf000023_0001
となる。また、重み wkと分散 a kの更新はそれぞれ式 (22)、式 (21)を用いる。この 追跡処理が連続で 3フレーム以上続く場合、予測値 (ハット)は、過去の直前の 2フ k
レームにおける; z の推定 、 を結ぶ直線の延長上の値とし、 μ (ハット) = 2 k k k k β —β kと定める。それ以外の場合は、直前フレームの推定値を予測値とする。
[C-6]調波成分の周波数成分パワー比パラメータの導入
音 kの n次調波成分と基本周波数成分との強度比を rk (rk = 1)とし、音ごとの強度比 を wとすれば、モデルの各正規分布の重み wkは rk -wと表される。これを用いて多 重音基本周波数検出を行う。発音数推定プロセスでは、 1/妙らぎを考慮して = 1 /n (固定)と置き、基本周波数及び周波数パワー比の検出プロセスでは、 rkの事前分 布 p (rk )を平均 l/n、分散 Vの正規分布と置くことで、最大事後確率推定を用いて周 波数成分パワー比の推定を行う。 EMアルゴリズムにおける wと rkの更新値はそれ k n
ぞれ式(20)、式(24)となる。
[数 21]
Figure imgf000024_0001
周波数成分パワー比パラメータを導入することで単一音と同等なスペクトル構造を有 する和音を複数音として推定できる可能性がある。
産業上の利用可能性
[0049] 本発明は、音楽の音響信号形式 (CD, MD, .wavファイルなど)から、音楽演奏の形 式 (MIDI信号, .midファイルなど)への変換 '編集'楽譜変換などのツールとして利 用することができる。具体例を挙げると、着メロ作成、カラオケ作成、楽譜作成支援等 に用いることができる。さら〖こ、本発明は、音源分離や音声認識へ応用することも可 能である。
図面の簡単な説明
[0050] [図 1]多重音のスペクトルが、複数の調波構造の重ね合わせ力 構成されることをと 示す説明図である。
[図 2]観測された拡がりをもつスぺ外ルが正規分布で近似できることを説明する図で ある。
[図 3]EMアルゴリズムによる多重調波構造モデルの最尤推定を説明する図である。
[図 4]基本周波数 F力 371Hz, 441Hz, 556Hzの 3音による多重音スペクトルを示
0
す図であり、横軸は対数周波数、縦軸は振幅を表している。
[図 5]調波構造モデル数および基本周波数推定値の更新を示す図である。
[図 6]上図は観測されたスペクトルであって、横軸は対数周波数、縦軸は振幅であり、 下図は が真の基本周波数 Fの 1/2であった場合の調波構造モデルを示す図であ つて、横軸は対数周波数、縦軸は確率密度である。
圆 7]実験 1に用いた対象曲を示す表である。
[図 8]Kanonの楽譜の一部と同部分の基本周波数抽出結果を示す図である。
[図 9]上図は、話者 1人による音声信号における基本周波数 F検出結果を示す図で
0
あり、下図は、上図に対する参照基本周波数 Fパターンを示す図である。
0
[図 10]話者 1人による音声信号における実験結果を Cepstrum法の結果と併せて示す 表である。
[図 11]上図は、話者 2人 (女性話者 2人)による音声信号における基本周波数 F検出
0 結果を示す図であり、下図は、上図に対する参照基本周波数 Fパターンを示す図で
0
ある。
[図 12]上図は、話者 2人 (男性話者 2人)による音声信号における基本周波数 F検出
0 結果を示す図であり、下図は、上図に対する参照基本周波数 Fパターンを示す図で
0
ある。
[図 13]Cepstrum法の推定正解率を示す表である。
圆 14]本発明の手法の推定正解率を示す表である。

Claims

請求の範囲
[1] 多重音信号の観測スペクトルを、複数の調波構造モデルからなる多重調波構造モ デルで推定することで多重音信号を解析する方法であって、
各調波構造モデルは、基本周波数成分に対応する一つの単峰形分布の代表値で ある基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分 布の代表値とを有すると共に、調波構造モデルの各単峰形分布の代表値、重み、分 散を多重調波構造モデルのモデルパラメータとし、
該方法は、モデルパラメータを推定するにあたり、所与の一つ又は複数の調波構 造モデルに基づ 、てモデル数を減少あるいは Zおよび増カロさせながら情報量基準 を用いて適切な複数の調波構造モデルを選択し、選択された調波構造モデルの数 を推定音源数とすることを特徴とする多重音信号解析方法。
[2] 請求項 1において、推定される音源数より多い数の調波構造モデルを用意し、尤度 への寄与度が少ないと判断される調波構造モデルを削除しながら情報量基準を用 いて適切な複数の調波構造モデルを選択することを特徴とする多重信号解析方法。
[3] 請求項 2にお 、て、尤度への寄与度が少な!/、と判断される調波構造モデルは、調波 構造モデルの調波構造ごとの重みが小さいモデルであることを特徴とする多重音信 号解析方法。
[4] 請求項 3において、すべての調波構造モデルの中で重みが最小のモデル、あるいは 、隣接する基本周波数推定値が所定の閾値より近接した場合には、重みが小さい方 のモデル、の ヽずれかに該当するモデルを削減することを特徴とする多重音信号解 析方法。
[5] 請求項 1乃至 4いずれかの方法はさらに、選択された各調波構造モデルの基本周波 数推定値から基本周波数を検出することを含むことを特徴とする多重音信号解析方 法。
[6] 請求項 1乃至 4いずれかの方法はさらに、選択された各調波構造モデルの各単峰形 分布の重みカゝら周波数成分パワー比を検出することを含むことを特徴とする多重音 信号解析方法。
[7] 請求項 5, 6いずれかに記載の方法において、 基本周波数あるいは zおよび周波数成分パワー比の検出は、
推定音源数の基となった各調波構造モデルにぉ ヽて、基本周波数推定値を構成 する代表値を少なくとも整数倍および Zあるいは整数分の 1倍の値に順次置き換え ながら少なくとも調波構造モデルの各単峰形分布の重みを推定するにあたり、情報 量基準を用いて適切な置き換え値及び重みを選択し、選択された置き換え値ある 、 は Zおよび重みを、基本周波数あるいは Zおよび周波数成分パワー比の推定値と することを特徴とする多重音信号解析方法。
[8] 多重音信号の観測スペクトルを、複数の調波構造モデルからなる多重調波構造モ デルで推定することで多重音信号を解析する方法であって、
各調波構造モデルは、基本周波数成分に対応する一つの単峰形分布の代表値で ある基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分 布の代表値とを有すると共に、調波構造モデルの各単峰形分布の代表値、重み、分 散、調波モデル数を多重調波構造モデルのモデルパラメータとし、
該方法は、モデルパラメータのうち少なくとも基本周波数推定値を構成する代表値 を推定するステップと、
推定された代表値を少なくとも整数倍および Zあるいは整数分の 1倍の値に順次 置き換えながら少なくとも調波構造モデルの各単峰形分布の重みを推定するにあた り、情報量基準を用いて適切な置き換え値及び重みを選択するステップと、
を有し、選択された置き換え値あるいは Zおよび重みを基本周波数あるいは Zおよ び周波数成分パワー比の推定値とすることを特徴とする多重音信号解析方法。
[9] 請求項 8にお 、て、該方法は、多重音信号の音源数を推定するステップを含み、推 定音源数の基となった各調波構造モデルにぉ 、て基本周波数あるいは Zおよび周 波数成分パワー比を検出するステップを適用することを特徴とする多重信号解析方 法。
[10] 請求項 8において、多重音信号の音源数が既知であることを特徴とする多重音信号 解析方法。
[11] 請求項 7乃至 10 、ずれかに記載の方法にぉ 、て、
基本周波数推定値の置き換え値は、基本周波数推定値の少なくとも 1倍、 2倍、 3 倍、 2分の 1倍、 3分の 1倍、 3分の 2倍、 2分の 3倍からなる群から選択された 2つ以上 の値であることを特徴とする多重音信号解析方法。
[12] 請求項 1乃至 11いずれか〖こおいて、単峰形分布は正規分布であることを特徴とする 多重音信号解析方法。
[13] 請求項 1乃至 12いずれかにおいて、分布の代表値は平均であることを特徴とする多 重音信号解析方法。
[14] 請求項 1乃至 13いずれかにおいて、分散を既知パラメータとして他のパラメータを推 定することを特徴とする多重音信号解析方法。
[15] 請求項 1乃至 14いずれかにおいて、最尤推定法によってモデルパラメータの推定を 行うことを特徴とする多重音信号解析法。
[16] 請求項 1乃至 14いずれかにおいて、各モデルパラメータに事前確率分布を想定して 最大事後確率推定法 (MAP)によってモデルパラメータの推定を行うことを特徴とす る多重信号解析法。
[17] 請求項 1乃至 14いずれかにおいて、変分ベイズ法によってモデルパラメータの推定 を行うことを特徴とする多重信号解析法。
[18] 請求項 15において、前記情報量基準は AICであることを特徴とする多重信号解析 法。
[19] 請求項 16において、前記情報量基準は BIC、 ABICあるいは MDLであることを特徴 とする多重信号解析法。
[20] 請求項 1乃至 19いずれかにおいて、モデルパラメータの推定アルゴリズムは、 EMァ ルゴリズムであることを特徴とする多重音信号解析方法。
[21] 請求項 1乃至 20いずれかにおいて、モデルパラメータの推定は、観測スペクトルと多 重調波構造モデル間の K-L情報量を評価尺度として行うことを特徴とする多重音信 号解析方法。
[22] 請求項 1乃至 21いずれかにおいて、情報量基準を求める際の対数尤度は、観測ス ベクトルと多重調波構造モデル間の K-L情報量を最小化するパラメータを用いて算 出されることを特徴とする多重音信号解析方法。
[23] 請求項 1乃至 22いずれかに記載の方法をコンピュータに実行させるためのコンビュ タプログラム。
求項 1乃至 22いずれかに記載の方法をコンピュータに実行させるためのコンビュ タプログラムを記録させた記録媒体。
PCT/JP2005/000148 2004-01-09 2005-01-07 多重音信号解析方法 WO2005066927A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005516909A JPWO2005066927A1 (ja) 2004-01-09 2005-01-07 多重音信号解析方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004-003683 2004-01-09
JP2004003683 2004-01-09
US54766004P 2004-02-24 2004-02-24
US60/547,660 2004-02-24

Publications (1)

Publication Number Publication Date
WO2005066927A1 true WO2005066927A1 (ja) 2005-07-21

Family

ID=34752095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/000148 WO2005066927A1 (ja) 2004-01-09 2005-01-07 多重音信号解析方法

Country Status (1)

Country Link
WO (1) WO2005066927A1 (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241181A (ja) * 2006-03-13 2007-09-20 Univ Of Tokyo 自動伴奏システム及び楽譜追跡システム
JP2007333895A (ja) * 2006-06-13 2007-12-27 Sony Corp 和音推定装置及び方法
EP1895506A1 (en) * 2006-09-01 2008-03-05 Yamaha Corporation Sound analysis apparatus and program
EP1895507A1 (en) * 2006-09-04 2008-03-05 National Institute of Advanced Industrial Science and Technology Pitch estimation, apparatus, pitch estimation method, and program
JP2008058753A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法
JP2008209547A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209550A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 和音判別装置、和音判別方法およびプログラム
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209579A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008209546A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
WO2009004718A1 (ja) * 2007-07-03 2009-01-08 Pioneer Corporation 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP2009031486A (ja) * 2007-07-26 2009-02-12 Yamaha Corp 演奏音の類似度を評価する方法、装置およびプログラム
JP2010145836A (ja) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
JP2010541350A (ja) * 2007-09-26 2010-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
JP2010286857A (ja) * 2010-08-25 2010-12-24 National Institute Of Advanced Industrial Science & Technology 音高推定装置、音高推定方法およびプログラム
JP2013250357A (ja) * 2012-05-30 2013-12-12 Yamaha Corp 音響解析装置およびプログラム
JP2014142804A (ja) * 2013-01-24 2014-08-07 Fujitsu Ltd 曲線推定方法及び装置
CN110244121A (zh) * 2019-06-12 2019-09-17 国电南瑞南京控制系统有限公司 一种基于电能质量统计数据的谐波责任估算方法
CN113221438A (zh) * 2021-04-06 2021-08-06 武汉科技大学 一种永磁同步电机声品质评价方法
CN113447671A (zh) * 2021-07-15 2021-09-28 中煤科工集团重庆研究院有限公司 基于高低频超声波的巷道断面风速检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0332073B2 (ja) * 1984-11-15 1991-05-09 Victor Company Of Japan
JPH09258788A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 音声分離方法およびこの方法を実施する装置
JP2001125562A (ja) * 1999-10-27 2001-05-11 Natl Inst Of Advanced Industrial Science & Technology Meti 音高推定方法及び装置
JP2003005790A (ja) * 2001-06-25 2003-01-08 Takayoshi Yamamoto 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0332073B2 (ja) * 1984-11-15 1991-05-09 Victor Company Of Japan
JPH09258788A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 音声分離方法およびこの方法を実施する装置
JP2001125562A (ja) * 1999-10-27 2001-05-11 Natl Inst Of Advanced Industrial Science & Technology Meti 音高推定方法及び装置
JP2003005790A (ja) * 2001-06-25 2003-01-08 Takayoshi Yamamoto 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241181A (ja) * 2006-03-13 2007-09-20 Univ Of Tokyo 自動伴奏システム及び楽譜追跡システム
JP2007333895A (ja) * 2006-06-13 2007-12-27 Sony Corp 和音推定装置及び方法
EP1895506A1 (en) * 2006-09-01 2008-03-05 Yamaha Corporation Sound analysis apparatus and program
JP2008058753A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP4625933B2 (ja) * 2006-09-01 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US7754958B2 (en) 2006-09-01 2010-07-13 Yamaha Corporation Sound analysis apparatus and program
EP1895507A1 (en) * 2006-09-04 2008-03-05 National Institute of Advanced Industrial Science and Technology Pitch estimation, apparatus, pitch estimation method, and program
US8543387B2 (en) 2006-09-04 2013-09-24 Yamaha Corporation Estimating pitch by modeling audio as a weighted mixture of tone models for harmonic structures
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法
JP2008209579A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008209546A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209550A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 和音判別装置、和音判別方法およびプログラム
JP2008209547A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP4630983B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP4625935B2 (ja) * 2007-02-26 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
JP4630981B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP4630982B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
WO2009004718A1 (ja) * 2007-07-03 2009-01-08 Pioneer Corporation 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP2009031486A (ja) * 2007-07-26 2009-02-12 Yamaha Corp 演奏音の類似度を評価する方法、装置およびプログラム
US8588427B2 (en) 2007-09-26 2013-11-19 Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
JP2010541350A (ja) * 2007-09-26 2010-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
JP2010145836A (ja) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
JP2010286857A (ja) * 2010-08-25 2010-12-24 National Institute Of Advanced Industrial Science & Technology 音高推定装置、音高推定方法およびプログラム
JP4710037B2 (ja) * 2010-08-25 2011-06-29 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP2013250357A (ja) * 2012-05-30 2013-12-12 Yamaha Corp 音響解析装置およびプログラム
JP2014142804A (ja) * 2013-01-24 2014-08-07 Fujitsu Ltd 曲線推定方法及び装置
CN110244121A (zh) * 2019-06-12 2019-09-17 国电南瑞南京控制系统有限公司 一种基于电能质量统计数据的谐波责任估算方法
CN110244121B (zh) * 2019-06-12 2021-06-01 国电南瑞南京控制系统有限公司 一种基于电能质量统计数据的谐波责任估算方法
CN113221438A (zh) * 2021-04-06 2021-08-06 武汉科技大学 一种永磁同步电机声品质评价方法
CN113221438B (zh) * 2021-04-06 2022-10-18 武汉科技大学 一种永磁同步电机声品质评价方法
CN113447671A (zh) * 2021-07-15 2021-09-28 中煤科工集团重庆研究院有限公司 基于高低频超声波的巷道断面风速检测方法
CN113447671B (zh) * 2021-07-15 2022-09-23 中煤科工集团重庆研究院有限公司 基于高低频超声波的巷道断面风速检测方法

Similar Documents

Publication Publication Date Title
WO2005066927A1 (ja) 多重音信号解析方法
Kim et al. Crepe: A convolutional representation for pitch estimation
Ryynänen et al. Automatic transcription of melody, bass line, and chords in polyphonic music
Muller et al. Signal processing for music analysis
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
CN103189913B (zh) 用于分解多信道音频信号的方法和设备
Hsu et al. A tandem algorithm for singing pitch extraction and voice separation from music accompaniment
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
CN110600055B (zh) 一种使用旋律提取与语音合成技术的歌声分离方法
JP2007041234A (ja) 音楽音響信号の調推定方法および調推定装置
US9779706B2 (en) Context-dependent piano music transcription with convolutional sparse coding
JP2002014692A (ja) 音響モデル作成装置及びその方法
Giannoulis et al. Musical instrument recognition in polyphonic audio using missing feature approach
JP2010054802A (ja) 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
Cogliati et al. Context-dependent piano music transcription with convolutional sparse coding
Durrieu et al. An iterative approach to monaural musical mixture de-soloing
Perez-Carrillo et al. Indirect acquisition of violin instrumental controls from audio signal with hidden Markov models
Katmeoka et al. Separation of harmonic structures based on tied Gaussian mixture model and information criterion for concurrent sounds
Ryynanen et al. Automatic bass line transcription from streaming polyphonic audio
Chang et al. Multiple-F0 tracking based on a high-order HMM model
JP4625933B2 (ja) 音分析装置およびプログラム
WO2011010647A1 (ja) 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
Takeda et al. Rhythm and tempo analysis toward automatic music transcription
Shih et al. A statistical multidimensional humming transcription using phone level hidden Markov models for query by humming systems
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005516909

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase