WO2012105386A1 - 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム - Google Patents

有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム Download PDF

Info

Publication number
WO2012105386A1
WO2012105386A1 PCT/JP2012/051554 JP2012051554W WO2012105386A1 WO 2012105386 A1 WO2012105386 A1 WO 2012105386A1 JP 2012051554 W JP2012051554 W JP 2012051554W WO 2012105386 A1 WO2012105386 A1 WO 2012105386A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
sound
clustering
time
cluster
Prior art date
Application number
PCT/JP2012/051554
Other languages
English (en)
French (fr)
Inventor
祥史 大西
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2012555818A priority Critical patent/JP5994639B2/ja
Priority to US13/982,580 priority patent/US9245539B2/en
Publication of WO2012105386A1 publication Critical patent/WO2012105386A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to a technique for detecting a voiced section from a voice signal from a voice signal, and in particular, a voiced section detection device for detecting a voiced section using voice signals collected by a plurality of microphones, and a voiced section detection.
  • the present invention relates to a method and a voiced section detection program.
  • Patent Document 1 A number of techniques for classifying voiced sections from audio signals collected by a plurality of microphones have been disclosed, and an example thereof is described in Patent Document 1, for example.
  • each observation signal for each time frequency converted into the frequency domain is classified for each sound source, and each classified The sound signal and silent section are determined for the observed signal.
  • FIG. 5 shows a configuration diagram of a voiced section classification device in the background art of Patent Document 1 and the like.
  • the sound segment classification device in the background art generally includes an observation signal classification unit 501, a signal separation unit 502, and a sound segment determination unit 503.
  • FIG. 8 is a flowchart showing the operation of the speech segment classification device according to the background art having such a configuration.
  • the speech segment classification device in the background art firstly multi-microphone speech signal x m (f, t) obtained by performing time-frequency analysis on speech observed with M microphones, where m is a microphone number, and f is Frequency, t indicates time) and noise power estimated value ⁇ m (f) for each frequency in each microphone (step S801).
  • the observation signal separation unit 501 performs sound source classification for each time frequency, and calculates a classification result C (f, t) (step S802).
  • the signal separation unit 502 calculates a separation signal y n (f, t) for each sound source using the classification result C (f, t) and the multi-microphone audio signal (step S803).
  • the sound segment determination unit 503 uses the separated signal y n (f, t) and the noise power estimated value estimated value ⁇ m (f) to perform S / N (signal-noise ratio) for each sound source. Whether or not there is sound is determined based on (step S804).
  • the observation signal classification unit 501 includes a silence determination unit 602 and a classification unit 601, and operates as follows.
  • a flowchart showing the operation of the observation signal classification unit 501 is shown in FIG.
  • the S / N non-calculation unit 607 of the silence determination unit 602 inputs the multi-microphone audio signal x m (f, t) and the noise power estimated value ⁇ m (f), and the S according to the equation 1 for each microphone.
  • the / N ratio ⁇ m (f, t) is calculated (step S901).
  • the non-linear conversion unit 608 performs non-linear conversion for each microphone according to the following equation, and calculates the S / N ratio G m (f, t) after the non-linear conversion (step S902).
  • G m (f, t) ⁇ m (f, t) ⁇ ln ⁇ m (f, t) ⁇ 1
  • the classification result C (f, t) is cluster information that takes values from 0 to N.
  • the normalization unit 603 of the classification unit 601 inputs the multi-microphone audio signal x m (f, t), and calculates X ′ (f, t) according to Equation 2 in a section not determined to be noise. (Step S904).
  • X ′ (f, t) is a vector obtained by normalizing the amplitude absolute value
  • the number of sound sources N and M may be different, but since it is assumed that any microphone is arranged near each of N speakers who are sound sources, n is 1,. Take M.
  • model update unit 605 uses a Gaussian distribution having an average vector in each M-dimensional coordinate axis direction as an initial distribution, and uses an average vector and a covariance using signals classified into its own sound source model using a speaker estimation result.
  • the sound source model is updated by updating the matrix.
  • the signal separation unit 502 uses the input multi-microphone audio signal x m (f, t) and the C (f, t) output from the observation signal classification unit 501 according to Equation 3, and then the signal y n ( f, t).
  • k (n) represents the nearest microphone number of the sound source n and can be calculated from the coordinate axes where the Gaussian distribution of the sound source model is close.
  • the voiced section determination unit 503 operates as follows.
  • the sound section determination unit 503 obtains G n (t) according to Equation 4 using the separated signal y n (f, t) calculated by the signal separation unit 502.
  • the voiced section determination unit 503 compares the calculated G n (t) with a predetermined threshold ⁇ , and if G n (t) is larger than the threshold ⁇ , the time t is the utterance section of the sound source n. If G n (t) is equal to or less than the threshold ⁇ , it is determined that the time t is a noise interval.
  • F is a set of wave numbers to be considered, and
  • Fig. 7 shows the case of signals observed with two microphones. Considering the case where a speaker near microphone number 2 is speaking, the voice power always fluctuates even in the space composed of the absolute values of the observation signals of the two microphones even if the sound source position does not change. , And fluctuates on the thick line in FIG.
  • ⁇ 1 (f) and ⁇ 2 (f) are noise powers, and their square roots correspond to the minimum amplitude observed by each microphone.
  • the normalized vector X ′ (f, t) is a vector constrained on an arc having a radius of 1, but the observed amplitude of microphone number 1 is small and equivalent to the noise level, and the observed amplitude of microphone number 2 is Even when the region is sufficiently larger than the noise level (that is, when ⁇ 2 (f, t) exceeds the threshold ⁇ ′ and can be regarded as a voiced section), X ′ (f, t) is the coordinate axis of microphone number 2 (ie, 7 greatly varies from the sound source direction), and it becomes difficult to classify the sound source due to fluctuation on the thick dotted line in FIG.
  • the third speaker is located near the middle of two microphones with two microphones and three sound sources (speakers), the sound source model near the microphone axis cannot be properly classified.
  • the object of the present invention is to solve the above-mentioned problems. Even when the volume of the sound source fluctuates, the number of sound sources is unknown, or when different types of microphones are used together, the presence of the observation signal is present. It is to provide a sound section detection device, a sound section detection method, and a sound section detection program capable of appropriately performing sound section detection.
  • the present invention it is possible to appropriately detect the voice section of the observation signal even when the volume from the sound source fluctuates, when the number of sound sources is unknown, or when different types of microphones are used together. I can do it.
  • FIG. 1 is a block diagram showing a configuration of a sound section detection device 100 according to the first embodiment of the present invention.
  • a voiced section detection apparatus 100 includes a vector calculation unit 101, a clustering unit 102, a voiced index calculation unit 103, and a voiced section determination unit 106.
  • M indicates the number of microphones.
  • the vector calculating means 101 may calculate a logarithmic power spectrum vector LS (f, t) as shown in Equation 6.
  • the clustering means 102 clusters the vectors in the M-dimensional space calculated by the vector calculation means 101.
  • the clustering unit 102 When the clustering unit 102 obtains the vector S (f, 1: t) of the M-dimensional power spectrum from the time 1 to t at the frequency f, the clustering means 102 represents the state of clustering these t vector data as z t .
  • the unit of time is a signal divided by a predetermined time length.
  • the cluster center vector of the data at time t is calculated as h (z t l )
  • the clustering state z t l is included in each set of z t l
  • a noise vector ⁇ (f, t, in a certain clustering state z t l .
  • Clustering is performed, such as cluster 1 in the vicinity, cluster 2 in the area where the volume of microphone number 1 is low, and cluster 3 in the area where the volume is higher.
  • FIG. 2 is a block diagram showing a configuration of a voiced section detection device 100 according to the second embodiment of the present invention.
  • the difference calculation means 104 calculates the expected value ⁇ Q (f, t) of ⁇ Q (z t l ) shown in Equation 9 as h () in the clustering means 102 and calculates the fluctuation direction of the cluster center.
  • the sound segment determination unit 106 uses the sound property index G (f, t) calculated by the sound property index calculation unit 103 and the sound source direction D (f, t) estimated by the sound source direction estimation unit 105. Then, according to Equation 10, the sum G j (t) of the voicing index G (f, t) of the frequency classified into each sound source ⁇ j is calculated.
  • Appendix 3 The sound section detection device according to appendix 1 or appendix 2, wherein the multidimensional vector sequence is a vector sequence of logarithmic power spectrum.
  • Appendix 6 The sound segment detection method according to appendix 4 or appendix 5, wherein the multidimensional vector sequence is a vector sequence of a logarithmic power spectrum.
  • a sound segment detection program that operates on a computer that functions as a sound segment classification device that detects a sound segment from audio signals collected by a plurality of microphones,
  • a vector calculation process for calculating a multi-dimensional vector sequence, which is a vector sequence of a power spectrum having a dimension of the number of microphones, from a power spectrum time series of audio signals collected by a plurality of microphones;
  • a clustering process for clustering the multidimensional vector sequence; At each time of the multi-dimensional vector sequence divided into arbitrary time lengths, a center vector of a noise cluster and a center vector of a cluster to which the audio signal vector at the time belongs are calculated, and the center vector of the noise cluster And projecting the vector of the audio signal at the time in the direction of the center vector of the cluster to which the vector of the audio signal at the time belongs, and then calculating the sound index calculation process as a sound index.
  • the voiced section is compared with a predetermined threshold value, and a voiced section determination process is performed to determine whether

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行う。

Description

有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
本発明は音声信号から、音声信号から有音区間を検出する技術に関し、特に、複数のマイクで集音された音声信号を用いて有音区間検出を行う有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムに関する。
 複数のマイクで収音された音声信号から有音区間を分類する技術は数多く開示されており、その一例が、例えば特許文献1に記載されている。
 特許文献1に記載の技術では、複数のマイクそれぞれの有音区間を正しく判定するために、まず周波数領域に変換された時間周波数ごとの各観測信号を音源毎に分類し、その分類された各観測信号について有音区間、無音区間の判定を行なっている。
 ここで、特許文献1等の背景技術における有音区間分類装置の構成図を図5に示す。背景技術における有音区間分類装置は、一般的に観測信号分類部501と、信号分離部502と有音区間判定部503とから構成されている。
 このような構成を有する背景技術における音声区間分類装置の動作を示すフローチャートを、図8に示す。
 背景技術における音声区間分類装置は、まず、M本のマイクで観測された音声を各マイクで時間-周波数分析した多マイク音声信号x(f,t)(ここでmはマイク番号、fは周波数、tは時間を示す)と、各マイクにおける周波数ごとのノイズパワー推定値λ(f)とを入力する(ステップS801)。
 次いで、観測信号分離部501が、各時間周波数について音源分類を行い、分類結果C(f,t)を算出する(ステップS802)。
 次いで、信号分離部502が、該分類結果C(f,t)及び多マイク音声信号を用いて、音源ごとの分離信号y(f,t)を算出する(ステップS803)。
 次いで、有音区間判定部503が、該分離信号y(f,t)とノイズパワー推定値推定値λ(f)とを用いて、音源ごとに、S/N(signal-noise ratio)に基づき有音か無音かを判定する(ステップS804)。
 ここで、図6に示すように、観測信号分類部501は無音判定部602と分類部601とから構成されており、次のように動作する。観測信号分類部501の動作を示すフローチャートを、図9に示す。
 まず、無音判定部602のS/N非計算部607が、多マイク音声信号x(f,t)とノイズパワー推定値λ(f)を入力し、各マイクごとに、数1に従いS/N比γ(f,t)を計算する(ステップS901)。
Figure JPOXMLDOC01-appb-M000001
 次いで、非線形変換部608が、各マイクごとに、下式に従い非線形変換を施し、非線形変換後のS/N比G(f,t)を計算する(ステップS902)。
(f,t)=γ(f,t)-lnγ(f,t)-1
 次に、判定部609が、予め定めた閾値η’と各マイクの非線形変換後のS/N比G(f,t)とを比較して、すべてのマイクにおいて非線形変換後のS/N比G(f,t)が閾値以下であれば、その時間-周波数における信号はノイズであるとみなしてC(f,t)=0を出力する(ステップS903)。なお、分類結果C(f,t)は、0からNまでの値をとるクラスタ情報である。
 次に、分類部601の正規化部603が、多マイク音声信号x(f,t)を入力し、ノイズと判断されなかった区間において、数2に従いX’(f,t)を計算する(ステップS904)。
Figure JPOXMLDOC01-appb-M000002
 X’(f,t)は、M本のマイクの信号の振幅絶対値|x(f,t)|をM次元ベクトルとし、そのベクトルのノルムで正規化したベクトルである。
 次いで、尤度計算部604が、あらかじめ定めた平均ベクトルと共分散行列をもつガウス分布で表した話者N人の音源モデルとの尤度p(X’(f,t))n=1,…,Nを計算する(ステップS905)。
 次いで、最大値決定部606が、尤度p(X’(f,t))が最大値となるnを、C(f,t)=nとして出力する(ステップS906)。
 ここで、音源数NとMは異なっていてもよいが、音源であるN人の各話者の近くにいずれかのマイクが配置されていると想定しているため、nは1,…,Mをとるものである。
 また、モデル更新部605は、M次元の各座標軸方向を平均ベクトルとするガウス分布を初期分布とし、話者推定結果を用いて自身の音源モデルに分類された信号を用いて平均ベクトルおよび共分散行列を更新することにより、音源モデルの更新を行う。
 信号分離部502は、入力された多マイク音声信号x(f,t)と観測信号分類部501で出力されたC(f,t)を用いて、数3に従い音源ごとの信号y(f,t)に分離する。
Figure JPOXMLDOC01-appb-M000003
 ここで、k(n)は音源nの最寄りのマイク番号を表し、音源モデルのガウス分布が近接している座標軸から算出できる。
 有音区間判定部503は次のように動作する。
 有音区間判定部503は、まず、信号分離部502で計算された分離信号y(f,t)を用いて、数4に従いG(t)を求める。
Figure JPOXMLDOC01-appb-M000004
 次いで、有音区間判定部503は、算出したG(t)と、予め定めた閾値ηとを比較し、G(t)が閾値ηよりも大きければ、時刻tは音源nの発話区間と判定し、G(t)が閾値η以下であれば、時刻tはノイズ区間であると判定する。
 なお、Fは考慮する波数の集合であり、|F|は集合Fの要素数である。
特開2008-158035号公報
P. Fearnhead, "Particle Filters for Mixture Models with an Unknown Number of Components",Statistics and Computing, vol 14, pp.11-21, 2004. B.A. Olshausen and D.J. Field, "Emergence of simple-cell receptive field properties by learning a sparse code for natural images", Nature vol. 381, pp607-609, 1996.
 特許文献1に記載の技術では、観測信号分類部501において行われる音源分類は、正規化ベクトルX’(f,t)が音源に近いマイクの座標軸方向にあるとして算出している。
 しかしながら実際には、音源が話者の場合などでは音声パワーは常に変動するため、音源位置が全く移動しない場合においても正規化ベクトルX’(f,t)はマイクの座標軸方向から大きく離れ、十分な精度で観測信号の音源分類が出来ないという課題がある。
 例えば2つのマイクで観測した信号の場合を図7に示す。今、マイク番号2の近くの話者が発話している場合を考えると、2つのマイクの観測信号絶対値からなる空間において、音源位置が変化していなくても、音声パワーは常に変動するため、図7の太線上を変動することとなる。
 ここで、λ(f),λ(f)はノイズパワーであり、その平方根が各マイクで観測される最小振幅程度に相当する。
 この時、正規化ベクトルX’(f,t)は半径1の円弧の上に制約されたベクトルとなるが、マイク番号1の観測振幅が小さくノイズレベルと同等で、マイク番号2の観測振幅がノイズレベルより十分に大きい領域である場合(すなわちγ(f,t)が閾値η’を超えて有音区間とみなせる場合)でも、X’(f,t)はマイク番号2の座標軸(すなわち音源方向)から大きく外れることとなり、図7の太点線上を変動して音源の分類が困難となり、その結果マイク番号2の音声区間を誤って無音と判定し、音声区間検出性能を劣化させる。
 また、特許文献1に記載の技術では、観測信号分類部501において、音源数Nは未知量であるため、尤度計算部604で音源分類のための適切な音源モデルを設定することは困難であることから、分類結果に誤りが生じ、その結果音声区間検出性能が劣化してしまう課題がある。
 例えば2マイク3音源(話者)で3番目の話者が2つのマイクの中間近くに位置していた場合、マイク軸近くの音源モデルでは適切に分類することはできない。また、事前の話者数の知識なしにマイク軸から離れた適切な位置に音源モデルを用意することは困難で、観測信号の音源分類が行えず、その結果音声区間検出性能が劣化してしまう。
 さらに、これら観測信号分類性能劣化の要因は、異なる種類のマイクをキャリブレーションせずに混在して使用するような場合、各マイクの振幅値やノイズレベルに差が生じることにより影響が増大して、音声区間検出性能劣化が大きくなる課題が存在する。
(発明の目的)
 本発明の目的は、上述した課題を解決し、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の有音区間検出を適切に行うことが出来る、有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムを提供することである。
 本発明によれば、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行うことが出来る。
本発明の第1の実施の形態による有音区間検出装置の構成を示すブロック図である。 本発明の第2の実施の形態による有音区間検出装置の構成を示すブロック図である。 本発明の効果を説明する図である。 本発明の効果を説明する図である。 背景技術による多マイク音声検出装置の構成を示すブロック図である。 背景技術による多マイク音声検出装置の構成を示すブロック図である。 背景技術による多マイク音声検出装置の課題を説明する図である。 背景技術による多マイク音声検出装置の動作を示すフローチャートである。 背景技術による多マイク音声検出装置の動作を示すフローチャートである。 本発明の有音区間検出装置のハードウェア構成例を示すブロック図である。
 本発明の上記及び他の目的、特徴及び利点を明確にすべく、添付した図面を参照しながら、本発明の実施形態を以下に詳述する。
 なお、上述の本願発明の目的のほか、他の技術的課題、その技術的課題を解決する手段及びその作用効果についても、以下の実施形態による開示によって明らかとなるものである。また、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
(第1の実施の形態)
 本発明の第1の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
 図1は、本発明の第1の実施の形態による有音区間検出装置100の構成を示すブロック図である。図1を参照すると、本実施の形態による有音区間検出装置100は、ベクトル算出手段101と、クラスタリング手段102と、有音声指標算出手段103と、有音区間判定手段106とを備えている。
 ベクトル算出手段101は、時間-周波数分析した多マイク音声信号x(f,t)(m=1,…,M)を入力し、数5に従いM次元パワースペクトルのベクトルS(f,t)を算出する。
Figure JPOXMLDOC01-appb-M000005
 ここで、Mはマイクの数を示す。
 また、ベクトル算出手段101は、数6に示すように、対数パワースペクトルのベクトルLS(f,t)を算出することとしてもよい。
Figure JPOXMLDOC01-appb-M000006
 クラスタリング手段102は、ベクトル算出手段101で算出したM次元空間のベクトルをクラスタリングする。
 クラスタリング手段102は、周波数fの時刻1からtまでのM次元パワースペクトルのベクトルS(f,1:t)が得られたとき、これらt個のベクトルデータをクラスタリングした状態をzで表す。なお、時刻の単位は、信号を所定の時間長で区切ったものである。
 また、h(z)はクラスタリング状態zを持つ系から算出できる任意の量hを表す関数とする。本実施の形態においては、クラスタリングは確率的に行うものとする。
 クラスタリング手段102は、数7の第2項に従い、事後分布p(z|S(f,1:t))を乗じてあらゆるクラスタリング状態zについて積分することでhの期待値を算出することが可能である。
Figure JPOXMLDOC01-appb-M000007
 しかし、実際には数7の第3項に示すようにL個のクラスタリング状態z (l=1,…,L)とその重みω を用いることにより、重み付き和をとることで近似的に算出する。
 ここで、クラスタリング状態z とは、t個のデータがそれぞれどのようにクラスタリングされたかを表す。例えばt=3の場合は、3個のデータのクラスタリングのすべての組み合わせが考えられ、クラスタリング状態z は、クラスタ番号の集合で表すとz ={1,1,1},z ={1,1,2},z ={1,2,1},z ={1,2,2},z ={1,2,3}のL=5種類となる。
 また例えば、h(z )として、時刻tのデータのクラスタ中心ベクトルを算出するものを考えると、前記t=3の場合では、クラスタリング状態z は、各z の集合に含まれるそれぞれのクラスタを、共役な事前分布を持つガウス分布として事後分布を算出し、そのうちt=3のデータを含むクラスタの分布平均の値を取るものとなる。
 ここで、z およびω は、ディリクレプロセスミクスチャモデルに粒子フィルタ法適応することにより算出でき、例えば非特許文献1に詳細が記載されている。
 なお、L=1とした場合には決定的なクラスタリングとなり、その場合も含んでいることとみなせる。
 有音性指標算出手段103は、前述のクラスタリング手段102におけるh()として,数8に示すG(z )の期待値G(f,t)を計算し、有音性の指標を算出する。
Figure JPOXMLDOC01-appb-M000008
 ここで、数8のQは、z における時刻tのクラスタ中心ベクトル、Λはz に含まれるクラスタのうちクラスタ中心が最小となる中心ベクトル、SはS(f,t)を略記したもので「・」は内積を表す。
 数8におけるγは、クラスタリング状態z において、ノイズパワーベクトルΛとパワースペクトルSをそれぞれクラスタ中心ベクトル方向に射影して算出したS/N比に相当する。すなわちGは
  G(f,t)=γ(f,t)-lnγ(f,t)-1
をM次元空間上へ拡張したものである。
 有音区間判定部106は、有音性指標算出手段103で算出されたG(f,t)と、予め定めた閾値ηと比較して、G(f,t)が閾値ηよりも大きければ発話区間と判定し、G(f,t)が閾値η以下であればノイズ区間であると判定する。
(第1の実施の形態による効果)
 次に、本実施の形態の効果について説明する。
 本実施の形態では、クラスタリング手段102において、ベクトル算出手段101で算出したM次元空間のベクトルをクラスタリングする。これにより、音源からの音量変動を反映したクラスタリングが行われる。
 例えば、図3に示すように、2つのマイクで観測する場合を考えると、マイク番号2の近くで話者が発話している場合、あるクラスタリング状態z において、ノイズベクトルΛ(f,t)近くのクラスタ1、マイク番号1の音量が小さい領域でのクラスタ2、より音量が大きい領域のクラスタ3といった、クラスタリングが行われる。
 ここで、さまざまなクラスタ数を持つクラスタリング状態z を考慮して、それらクラスタリング状態を確率的に取り扱っているため、クラスタ数は予め決める必要はない。
 本実施の形態では、有音性指標算出手段203において、各時刻のパワースペクトルS(f,t)が入力されたとき、そのデータが属するクラスタ中心ベクトル方向において、有音性指標G(f,t)を算出する。
 このため、異なる種類のマイクを混在して使用するような場合、すなわち各マイク軸におけるパワースペクトルの値やノイズレベルに差が生じる場合でも、M次元空間でクラスタリングを行い、データ変動の影響を考慮して実現されたクラスタ中心ベクトルを算出し、その方向において有音性指標を評価しているため、マイク差の影響を受けにくい効果がある。
 また、有音区間判定手段106は、これら算出された有音性指標をもちいて有音区間を判定するため、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行うことが出来る。
なお、本発明では、音源は音声としたが、これに限定されるものではなく、例えば楽器の音等、他の音源についても適用できる。
(第2の実施の形態)
 次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
 図2は本発明の第2の実施の形態による有音区間検出装置100の構成を示すブロック図である。
 本実施の形態による有音区間検出装置100は、図1に示す第1の実施の形態の構成に加え、差分算出手段104と、音源方向算出手段105とを備えている。
 差分算出手段104は、前記クラスタリング手段102におけるh()として、数9に示すΔQ(z )の期待値ΔQ(f,t)を計算し、クラスタ中心の変動方向を算出する。
Figure JPOXMLDOC01-appb-M000009
 ここで、数9は、時刻tとt-1のデータが含まれるクラスタ中心ベクトル差分Q-Qt-1を、それら平均ノルム|Q+Qt-1|/2で規格化したものを表す。
 音源方向推定手段105は、差分算出手段104において算出された、ΔQ(f,t)のf∈F,t∈τのデータを用いて、下式に従い、Iを最小とする基底ベクトルφ(i)、及び係数a(f,t)を算出しする。
  I(a,φ)=Σf∈F,t∈τ[Σ{Q(f,t)-Σ(f,t)φ(i)}2]+ξΣ|a(f,t)|]
 次いで、音源方向推定手段105は、下式に従い、各f,tにおいて、a(f,t)が最大となる基底ベクトルを、音源方向D(f,t)として推定する。
  D(f,t)=φ,j=argmax(f,t)
 Iを最小にするφ及びaは、a及びφについて交互に再急降下法を適応することにより算出でき、この詳細についてはたとえば非特許文献2に記載されている。
 ここで、Fは考慮する波数の集合であり、τは予め定めたtの前後のバッファ幅である。なお音源方向の不定を減少させるため、t∈{t-τ1,…,t+τ2}として、有音区間判定手段106でノイズ区間と判定された領域を含まないように変動を許したバッファ幅を用いることも出来る。
 また、基底ベクトルの個数は、十分な数を設定しておけば、不要な基底ベクトルの係数aがゼロとなるため、音源数を事前に知っておく必要はない。
 有音区間判定手段106は、有音性指標算出手段103で算出された有音性指標G(f,t)と、音源方向推定手段105で推定さた音源方向D(f,t)を用いて、数10に従い、各音源φに分類された周波数の有音性指標G(f,t)の和G(t)を算出する。
Figure JPOXMLDOC01-appb-M000010
 次いで、有音区間判定手段106は、予め定めた閾値ηと、算出したG(t)とを比較し、G(t)が閾値ηよりも大きければ、該音源方向は音源φの発話区間と判定する。
 また、G(t)が閾値η以下であれば、該音源方向はノイズ区間であると判定する。
(第2の実施の形態による効果)
 次に、本実施の形態の効果について説明する。
 本実施の形態では差分算出手段104において、各時刻のパワースペクトルのベクトルS(f,t)が入力されたとき、クラスタリング手段102で算出されたその時刻および前時刻のデータが属するクラスタ中心の差分ベクトルΔQ(f,t)を算出している。これにより、音源からの音量が変動する場合においてもその影響を受けずにΔQ(f,t)は概ね音源方向を正しく示す効果がある。
 例えば図4に示すように、クラスタ間の差分は太点線で示すベクトルとなり、音源方向を示していることが分かる。
 また、音源方向推定手段105は、差分算出手段104で算出されたΔQ(f,t)から、その主要成分を、非直交および空間次元を超えることを許して算出する。ここで、音源数を事前に知っておく必要はなく、また初期音源位置などを指定する必要もない。音源数が未知の場合でも、音源方向を算出できる効果がある。
 また、有音区間判定手段106は、これら算出された有音性指標および音源方向をもちいて有音区間を判定するため、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音源分類および音声区間検出を適切に行うことが出来る。
 次に、本発明の有音区間検出装置100のハードウェア構成例について、図10を参照して説明する。図10は有音区間検出装置100のハードウェア構成例を示すブロック図である。
 図10を参照すると、有音区間検出装置100は、一般的なコンピュータ装置と同様のハードウェア構成であり、CPU(Central Processing Unit)801、RAM(Random Access Memory)等のメモリからなる、データの作業領域やデータの一時退避領域に用いられる主記憶部802、ネットワークを介してデータの送受信を行う通信部803、入力装置805や出力装置806及び記憶装置807と接続してデータの送受信を行う入出力インタフェース部804、上記各構成要素を相互に接続するシステムバス808を備えている。記憶装置807は、例えば、ROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等で実現される。
 本発明の有音区間検出装置100のベクトル算出手段101、クラスタリング手段102、差分算出手段104、音源方向推定手段105、有音区間判定手段106、有音声指標算出手段103は、プログラムを組み込んだ、LSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、その機能を提供するプログラムを、記憶装置807に格納し、そのプログラムを主記憶部802にロードしてCPU801で実行することにより、ソフトウェア的に実現することも可能である。
 なお、ハードウェア構成は上記に限定されるものではない。
 以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
 また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施する時には、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
 また、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
 複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
 前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
 任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
 前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
 を備えることを特徴とする有音区間検出装置。
(付記2)
 前記クラスタリング手段が、確率的なクラスタリングを行い、
 前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記1に記載の有音区間検出装置。
(付記3)
 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記1又は付記2に記載の有音区間検出装置。
(付記4)
 複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
 複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
 前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
 任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
 前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
 を有することを特徴とする有音区間検出方法。
(付記5)
 前記クラスタリングステップが、確率的なクラスタリングを行い、
 前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記4に記載の有音区間検出方法。
(付記6)
 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記4又は付記5に記載の有音区間検出方法。
(付記7)
 複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
 前記コンピュータに、
 複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
 前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
 任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
 前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
 を実行させることを特徴とする有音区間検出プログラム。
(付記8)
 前記クラスタリング処理が、確率的なクラスタリングを行い、
 前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記7に記載の有音区間検出プログラム。
(付記9)
 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記7又は付記8に記載の有音区間検出プログラム。
 この出願は、2011年2月1日に出願された日本出願特願2011-019815を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、多マイクを用いて集音して音声認識を行うための、発話区間検出といった用途に適応できる。

Claims (9)

  1.  複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
     前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
     任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
     前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
     を備えることを特徴とする有音区間検出装置。
  2.  前記クラスタリング手段が、確率的なクラスタリングを行い、
     前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項1に記載の有音区間検出装置。
  3.  前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項1又は請求項2に記載の有音区間検出装置。
  4.  複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
     複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
     前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
     任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
     前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
     を有することを特徴とする有音区間検出方法。
  5.  前記クラスタリングステップが、確率的なクラスタリングを行い、
     前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項4に記載の有音区間検出方法。
  6.  前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項4又は請求項5に記載の有音区間検出方法。
  7.  複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
     前記コンピュータに、
     複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
     前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
     任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
     前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
     を実行させることを特徴とする有音区間検出プログラム。
  8.  前記クラスタリング処理が、確率的なクラスタリングを行い、
     前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項7に記載の有音区間検出プログラム。
  9.  前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項7又は請求項8に記載の有音区間検出プログラム。
PCT/JP2012/051554 2011-02-01 2012-01-25 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム WO2012105386A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012555818A JP5994639B2 (ja) 2011-02-01 2012-01-25 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
US13/982,580 US9245539B2 (en) 2011-02-01 2012-01-25 Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-019815 2011-02-01
JP2011019815 2011-02-01

Publications (1)

Publication Number Publication Date
WO2012105386A1 true WO2012105386A1 (ja) 2012-08-09

Family

ID=46602604

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/051554 WO2012105386A1 (ja) 2011-02-01 2012-01-25 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム

Country Status (3)

Country Link
US (1) US9245539B2 (ja)
JP (1) JP5994639B2 (ja)
WO (1) WO2012105386A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417224A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
JP2019168730A (ja) * 2013-12-05 2019-10-03 マイクロソフト テクノロジー ライセンシング,エルエルシー 音響エコーキャンセルのための室内インパルス応答の推定
CN113270099A (zh) * 2021-06-29 2021-08-17 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质
JP7542464B2 (ja) 2021-03-16 2024-08-30 本田技研工業株式会社 音声処理システム、および音声処理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
CN108733342B (zh) * 2018-05-22 2021-03-26 Oppo(重庆)智能科技有限公司 音量调节方法、移动终端及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置
JP2004170552A (ja) * 2002-11-18 2004-06-17 Fujitsu Ltd 音声抽出装置
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
WO2008056649A1 (fr) * 2006-11-09 2008-05-15 Panasonic Corporation Détecteur de position de source sonore
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2010217773A (ja) * 2009-03-18 2010-09-30 Yamaha Corp 信号処理装置およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5768263A (en) * 1995-10-20 1998-06-16 Vtel Corporation Method for talk/listen determination and multipoint conferencing system using such method
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
KR100754384B1 (ko) * 2003-10-13 2007-08-31 삼성전자주식회사 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템
JP3906230B2 (ja) * 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置
JP2004170552A (ja) * 2002-11-18 2004-06-17 Fujitsu Ltd 音声抽出装置
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
WO2008056649A1 (fr) * 2006-11-09 2008-05-15 Panasonic Corporation Détecteur de position de source sonore
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2010217773A (ja) * 2009-03-18 2010-09-30 Yamaha Corp 信号処理装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEARNHEAD, PAUL: "Particle filters for mixture models with an unknown number of components", JOURNAL OF STATISTICS AND COMPUTING, vol. 14, 2004, pages 11 - 21 *
SHOKO ARAKI ET AL.: "Kansoku Shingo Vector Seikika to Clustering ni yoru Ongen Bunri Shuho to sono Hyoka", REPORT OF THE 2005 AUTUMN MEETING, THE ACOUSTICAL SOCIETY OF JAPAN, 20 September 2005 (2005-09-20), pages 591 - 592 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019168730A (ja) * 2013-12-05 2019-10-03 マイクロソフト テクノロジー ライセンシング,エルエルシー 音響エコーキャンセルのための室内インパルス応答の推定
CN108417224A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
CN108417224B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
JP7542464B2 (ja) 2021-03-16 2024-08-30 本田技研工業株式会社 音声処理システム、および音声処理方法
CN113270099A (zh) * 2021-06-29 2021-08-17 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质
CN113270099B (zh) * 2021-06-29 2023-08-29 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20130311183A1 (en) 2013-11-21
US9245539B2 (en) 2016-01-26
JP5994639B2 (ja) 2016-09-21
JPWO2012105386A1 (ja) 2014-07-03

Similar Documents

Publication Publication Date Title
EP3584573B1 (en) Abnormal sound detection training device and method and program therefor
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP6157926B2 (ja) 音声処理装置、方法およびプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Nathwani et al. An extended experimental investigation of DNN uncertainty propagation for noise robust ASR
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
US11580967B2 (en) Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
JP2019184747A (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP5342621B2 (ja) 音響モデル生成装置、音響モデル生成方法、プログラム
Liu et al. Investigation of Cost Function for Supervised Monaural Speech Separation.
Zhang et al. URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement
KR101732399B1 (ko) 스테레오 채널을 이용한 음향 검출 방법
JP6167062B2 (ja) 分類装置、分類方法、およびプログラム
Hussein et al. Dual Stages of Speech Enhancement Algorithm Based on Super Gaussian Speech Models
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP2019028406A (ja) 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12742027

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012555818

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13982580

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12742027

Country of ref document: EP

Kind code of ref document: A1