WO2012105386A1 - 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム - Google Patents
有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム Download PDFInfo
- Publication number
- WO2012105386A1 WO2012105386A1 PCT/JP2012/051554 JP2012051554W WO2012105386A1 WO 2012105386 A1 WO2012105386 A1 WO 2012105386A1 JP 2012051554 W JP2012051554 W JP 2012051554W WO 2012105386 A1 WO2012105386 A1 WO 2012105386A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- vector
- sound
- clustering
- time
- cluster
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 128
- 238000000034 method Methods 0.000 claims description 36
- 230000005236 sound signal Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Definitions
- the present invention relates to a technique for detecting a voiced section from a voice signal from a voice signal, and in particular, a voiced section detection device for detecting a voiced section using voice signals collected by a plurality of microphones, and a voiced section detection.
- the present invention relates to a method and a voiced section detection program.
- Patent Document 1 A number of techniques for classifying voiced sections from audio signals collected by a plurality of microphones have been disclosed, and an example thereof is described in Patent Document 1, for example.
- each observation signal for each time frequency converted into the frequency domain is classified for each sound source, and each classified The sound signal and silent section are determined for the observed signal.
- FIG. 5 shows a configuration diagram of a voiced section classification device in the background art of Patent Document 1 and the like.
- the sound segment classification device in the background art generally includes an observation signal classification unit 501, a signal separation unit 502, and a sound segment determination unit 503.
- FIG. 8 is a flowchart showing the operation of the speech segment classification device according to the background art having such a configuration.
- the speech segment classification device in the background art firstly multi-microphone speech signal x m (f, t) obtained by performing time-frequency analysis on speech observed with M microphones, where m is a microphone number, and f is Frequency, t indicates time) and noise power estimated value ⁇ m (f) for each frequency in each microphone (step S801).
- the observation signal separation unit 501 performs sound source classification for each time frequency, and calculates a classification result C (f, t) (step S802).
- the signal separation unit 502 calculates a separation signal y n (f, t) for each sound source using the classification result C (f, t) and the multi-microphone audio signal (step S803).
- the sound segment determination unit 503 uses the separated signal y n (f, t) and the noise power estimated value estimated value ⁇ m (f) to perform S / N (signal-noise ratio) for each sound source. Whether or not there is sound is determined based on (step S804).
- the observation signal classification unit 501 includes a silence determination unit 602 and a classification unit 601, and operates as follows.
- a flowchart showing the operation of the observation signal classification unit 501 is shown in FIG.
- the S / N non-calculation unit 607 of the silence determination unit 602 inputs the multi-microphone audio signal x m (f, t) and the noise power estimated value ⁇ m (f), and the S according to the equation 1 for each microphone.
- the / N ratio ⁇ m (f, t) is calculated (step S901).
- the non-linear conversion unit 608 performs non-linear conversion for each microphone according to the following equation, and calculates the S / N ratio G m (f, t) after the non-linear conversion (step S902).
- G m (f, t) ⁇ m (f, t) ⁇ ln ⁇ m (f, t) ⁇ 1
- the classification result C (f, t) is cluster information that takes values from 0 to N.
- the normalization unit 603 of the classification unit 601 inputs the multi-microphone audio signal x m (f, t), and calculates X ′ (f, t) according to Equation 2 in a section not determined to be noise. (Step S904).
- X ′ (f, t) is a vector obtained by normalizing the amplitude absolute value
- the number of sound sources N and M may be different, but since it is assumed that any microphone is arranged near each of N speakers who are sound sources, n is 1,. Take M.
- model update unit 605 uses a Gaussian distribution having an average vector in each M-dimensional coordinate axis direction as an initial distribution, and uses an average vector and a covariance using signals classified into its own sound source model using a speaker estimation result.
- the sound source model is updated by updating the matrix.
- the signal separation unit 502 uses the input multi-microphone audio signal x m (f, t) and the C (f, t) output from the observation signal classification unit 501 according to Equation 3, and then the signal y n ( f, t).
- k (n) represents the nearest microphone number of the sound source n and can be calculated from the coordinate axes where the Gaussian distribution of the sound source model is close.
- the voiced section determination unit 503 operates as follows.
- the sound section determination unit 503 obtains G n (t) according to Equation 4 using the separated signal y n (f, t) calculated by the signal separation unit 502.
- the voiced section determination unit 503 compares the calculated G n (t) with a predetermined threshold ⁇ , and if G n (t) is larger than the threshold ⁇ , the time t is the utterance section of the sound source n. If G n (t) is equal to or less than the threshold ⁇ , it is determined that the time t is a noise interval.
- F is a set of wave numbers to be considered, and
- Fig. 7 shows the case of signals observed with two microphones. Considering the case where a speaker near microphone number 2 is speaking, the voice power always fluctuates even in the space composed of the absolute values of the observation signals of the two microphones even if the sound source position does not change. , And fluctuates on the thick line in FIG.
- ⁇ 1 (f) and ⁇ 2 (f) are noise powers, and their square roots correspond to the minimum amplitude observed by each microphone.
- the normalized vector X ′ (f, t) is a vector constrained on an arc having a radius of 1, but the observed amplitude of microphone number 1 is small and equivalent to the noise level, and the observed amplitude of microphone number 2 is Even when the region is sufficiently larger than the noise level (that is, when ⁇ 2 (f, t) exceeds the threshold ⁇ ′ and can be regarded as a voiced section), X ′ (f, t) is the coordinate axis of microphone number 2 (ie, 7 greatly varies from the sound source direction), and it becomes difficult to classify the sound source due to fluctuation on the thick dotted line in FIG.
- the third speaker is located near the middle of two microphones with two microphones and three sound sources (speakers), the sound source model near the microphone axis cannot be properly classified.
- the object of the present invention is to solve the above-mentioned problems. Even when the volume of the sound source fluctuates, the number of sound sources is unknown, or when different types of microphones are used together, the presence of the observation signal is present. It is to provide a sound section detection device, a sound section detection method, and a sound section detection program capable of appropriately performing sound section detection.
- the present invention it is possible to appropriately detect the voice section of the observation signal even when the volume from the sound source fluctuates, when the number of sound sources is unknown, or when different types of microphones are used together. I can do it.
- FIG. 1 is a block diagram showing a configuration of a sound section detection device 100 according to the first embodiment of the present invention.
- a voiced section detection apparatus 100 includes a vector calculation unit 101, a clustering unit 102, a voiced index calculation unit 103, and a voiced section determination unit 106.
- M indicates the number of microphones.
- the vector calculating means 101 may calculate a logarithmic power spectrum vector LS (f, t) as shown in Equation 6.
- the clustering means 102 clusters the vectors in the M-dimensional space calculated by the vector calculation means 101.
- the clustering unit 102 When the clustering unit 102 obtains the vector S (f, 1: t) of the M-dimensional power spectrum from the time 1 to t at the frequency f, the clustering means 102 represents the state of clustering these t vector data as z t .
- the unit of time is a signal divided by a predetermined time length.
- the cluster center vector of the data at time t is calculated as h (z t l )
- the clustering state z t l is included in each set of z t l
- a noise vector ⁇ (f, t, in a certain clustering state z t l .
- Clustering is performed, such as cluster 1 in the vicinity, cluster 2 in the area where the volume of microphone number 1 is low, and cluster 3 in the area where the volume is higher.
- FIG. 2 is a block diagram showing a configuration of a voiced section detection device 100 according to the second embodiment of the present invention.
- the difference calculation means 104 calculates the expected value ⁇ Q (f, t) of ⁇ Q (z t l ) shown in Equation 9 as h () in the clustering means 102 and calculates the fluctuation direction of the cluster center.
- the sound segment determination unit 106 uses the sound property index G (f, t) calculated by the sound property index calculation unit 103 and the sound source direction D (f, t) estimated by the sound source direction estimation unit 105. Then, according to Equation 10, the sum G j (t) of the voicing index G (f, t) of the frequency classified into each sound source ⁇ j is calculated.
- Appendix 3 The sound section detection device according to appendix 1 or appendix 2, wherein the multidimensional vector sequence is a vector sequence of logarithmic power spectrum.
- Appendix 6 The sound segment detection method according to appendix 4 or appendix 5, wherein the multidimensional vector sequence is a vector sequence of a logarithmic power spectrum.
- a sound segment detection program that operates on a computer that functions as a sound segment classification device that detects a sound segment from audio signals collected by a plurality of microphones,
- a vector calculation process for calculating a multi-dimensional vector sequence, which is a vector sequence of a power spectrum having a dimension of the number of microphones, from a power spectrum time series of audio signals collected by a plurality of microphones;
- a clustering process for clustering the multidimensional vector sequence; At each time of the multi-dimensional vector sequence divided into arbitrary time lengths, a center vector of a noise cluster and a center vector of a cluster to which the audio signal vector at the time belongs are calculated, and the center vector of the noise cluster And projecting the vector of the audio signal at the time in the direction of the center vector of the cluster to which the vector of the audio signal at the time belongs, and then calculating the sound index calculation process as a sound index.
- the voiced section is compared with a predetermined threshold value, and a voiced section determination process is performed to determine whether
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
Gm(f,t)=γm(f,t)-lnγm(f,t)-1
本発明の目的は、上述した課題を解決し、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の有音区間検出を適切に行うことが出来る、有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムを提供することである。
本発明の第1の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
Gm(f,t)=γm(f,t)-lnγm(f,t)-1
をM次元空間上へ拡張したものである。
次に、本実施の形態の効果について説明する。
次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
I(a,φ)=Σf∈F,t∈τ[Σm{Qm(f,t)-Σiai(f,t)φm(i)}2]+ξΣi|ai(f,t)|]
D(f,t)=φj,j=argmaxiai(f,t)
次に、本実施の形態の効果について説明する。
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
を備えることを特徴とする有音区間検出装置。
前記クラスタリング手段が、確率的なクラスタリングを行い、
前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記1に記載の有音区間検出装置。
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記1又は付記2に記載の有音区間検出装置。
複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
を有することを特徴とする有音区間検出方法。
前記クラスタリングステップが、確率的なクラスタリングを行い、
前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記4に記載の有音区間検出方法。
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記4又は付記5に記載の有音区間検出方法。
複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
前記コンピュータに、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
を実行させることを特徴とする有音区間検出プログラム。
前記クラスタリング処理が、確率的なクラスタリングを行い、
前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記7に記載の有音区間検出プログラム。
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記7又は付記8に記載の有音区間検出プログラム。
Claims (9)
- 複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
を備えることを特徴とする有音区間検出装置。 - 前記クラスタリング手段が、確率的なクラスタリングを行い、
前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項1に記載の有音区間検出装置。 - 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項1又は請求項2に記載の有音区間検出装置。
- 複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
を有することを特徴とする有音区間検出方法。 - 前記クラスタリングステップが、確率的なクラスタリングを行い、
前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項4に記載の有音区間検出方法。 - 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項4又は請求項5に記載の有音区間検出方法。
- 複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
前記コンピュータに、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
を実行させることを特徴とする有音区間検出プログラム。 - 前記クラスタリング処理が、確率的なクラスタリングを行い、
前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項7に記載の有音区間検出プログラム。 - 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項7又は請求項8に記載の有音区間検出プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012555818A JP5994639B2 (ja) | 2011-02-01 | 2012-01-25 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
US13/982,580 US9245539B2 (en) | 2011-02-01 | 2012-01-25 | Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-019815 | 2011-02-01 | ||
JP2011019815 | 2011-02-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012105386A1 true WO2012105386A1 (ja) | 2012-08-09 |
Family
ID=46602604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2012/051554 WO2012105386A1 (ja) | 2011-02-01 | 2012-01-25 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9245539B2 (ja) |
JP (1) | JP5994639B2 (ja) |
WO (1) | WO2012105386A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417224A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
JP2019168730A (ja) * | 2013-12-05 | 2019-10-03 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 音響エコーキャンセルのための室内インパルス応答の推定 |
CN113270099A (zh) * | 2021-06-29 | 2021-08-17 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
JP7542464B2 (ja) | 2021-03-16 | 2024-08-30 | 本田技研工業株式会社 | 音声処理システム、および音声処理方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
CN108733342B (zh) * | 2018-05-22 | 2021-03-26 | Oppo(重庆)智能科技有限公司 | 音量调节方法、移动终端及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271166A (ja) * | 2002-03-14 | 2003-09-25 | Nissan Motor Co Ltd | 入力信号処理方法および入力信号処理装置 |
JP2004170552A (ja) * | 2002-11-18 | 2004-06-17 | Fujitsu Ltd | 音声抽出装置 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
WO2008056649A1 (fr) * | 2006-11-09 | 2008-05-15 | Panasonic Corporation | Détecteur de position de source sonore |
JP2008158035A (ja) * | 2006-12-21 | 2008-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP2010217773A (ja) * | 2009-03-18 | 2010-09-30 | Yamaha Corp | 信号処理装置およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5768263A (en) * | 1995-10-20 | 1998-06-16 | Vtel Corporation | Method for talk/listen determination and multipoint conferencing system using such method |
US6104994A (en) * | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
KR100754384B1 (ko) * | 2003-10-13 | 2007-08-31 | 삼성전자주식회사 | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 |
JP3906230B2 (ja) * | 2005-03-11 | 2007-04-18 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
-
2012
- 2012-01-25 JP JP2012555818A patent/JP5994639B2/ja active Active
- 2012-01-25 WO PCT/JP2012/051554 patent/WO2012105386A1/ja active Application Filing
- 2012-01-25 US US13/982,580 patent/US9245539B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271166A (ja) * | 2002-03-14 | 2003-09-25 | Nissan Motor Co Ltd | 入力信号処理方法および入力信号処理装置 |
JP2004170552A (ja) * | 2002-11-18 | 2004-06-17 | Fujitsu Ltd | 音声抽出装置 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
WO2008056649A1 (fr) * | 2006-11-09 | 2008-05-15 | Panasonic Corporation | Détecteur de position de source sonore |
JP2008158035A (ja) * | 2006-12-21 | 2008-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP2010217773A (ja) * | 2009-03-18 | 2010-09-30 | Yamaha Corp | 信号処理装置およびプログラム |
Non-Patent Citations (2)
Title |
---|
FEARNHEAD, PAUL: "Particle filters for mixture models with an unknown number of components", JOURNAL OF STATISTICS AND COMPUTING, vol. 14, 2004, pages 11 - 21 * |
SHOKO ARAKI ET AL.: "Kansoku Shingo Vector Seikika to Clustering ni yoru Ongen Bunri Shuho to sono Hyoka", REPORT OF THE 2005 AUTUMN MEETING, THE ACOUSTICAL SOCIETY OF JAPAN, 20 September 2005 (2005-09-20), pages 591 - 592 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019168730A (ja) * | 2013-12-05 | 2019-10-03 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 音響エコーキャンセルのための室内インパルス応答の推定 |
CN108417224A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
CN108417224B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
JP7542464B2 (ja) | 2021-03-16 | 2024-08-30 | 本田技研工業株式会社 | 音声処理システム、および音声処理方法 |
CN113270099A (zh) * | 2021-06-29 | 2021-08-17 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
CN113270099B (zh) * | 2021-06-29 | 2023-08-29 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20130311183A1 (en) | 2013-11-21 |
US9245539B2 (en) | 2016-01-26 |
JP5994639B2 (ja) | 2016-09-21 |
JPWO2012105386A1 (ja) | 2014-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3584573B1 (en) | Abnormal sound detection training device and method and program therefor | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP6157926B2 (ja) | 音声処理装置、方法およびプログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Nathwani et al. | An extended experimental investigation of DNN uncertainty propagation for noise robust ASR | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
US11580967B2 (en) | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium | |
WO2012023268A1 (ja) | 多マイクロホン話者分類装置、方法およびプログラム | |
JP2019184747A (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP7293162B2 (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
Liu et al. | Investigation of Cost Function for Supervised Monaural Speech Separation. | |
Zhang et al. | URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement | |
KR101732399B1 (ko) | 스테레오 채널을 이용한 음향 검출 방법 | |
JP6167062B2 (ja) | 分類装置、分類方法、およびプログラム | |
Hussein et al. | Dual Stages of Speech Enhancement Algorithm Based on Super Gaussian Speech Models | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2019028406A (ja) | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12742027 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2012555818 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13982580 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 12742027 Country of ref document: EP Kind code of ref document: A1 |