JPWO2014168022A1 - 信号処理装置、信号処理方法および信号処理プログラム - Google Patents
信号処理装置、信号処理方法および信号処理プログラム Download PDFInfo
- Publication number
- JPWO2014168022A1 JPWO2014168022A1 JP2015511205A JP2015511205A JPWO2014168022A1 JP WO2014168022 A1 JPWO2014168022 A1 JP WO2014168022A1 JP 2015511205 A JP2015511205 A JP 2015511205A JP 2015511205 A JP2015511205 A JP 2015511205A JP WO2014168022 A1 JPWO2014168022 A1 JP WO2014168022A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- unit
- voice
- norm
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 64
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000008859 change Effects 0.000 claims abstract description 59
- 238000004364 calculation method Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 230000010354 integration Effects 0.000 claims abstract description 25
- 238000009499 grossing Methods 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 description 72
- 238000010586 diagram Methods 0.000 description 34
- 238000001514 detection method Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 24
- 238000000034 method Methods 0.000 description 23
- 230000003595 spectral effect Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
Description
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
前記算出手段が算出した前記変化のノルムを積算する積算手段と、
前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
を備えた。
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
を備えた。
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
をコンピュータに実行させる。
本発明の第1実施形態としての信号処理装置100について、図1を用いて説明する。信号処理装置100は、入力信号における音声の存在を判定する装置である。
次に本発明の第2実施形態に係る信号処理装置について、図2を用いて説明する。図2は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。
次に本発明の第3実施形態に係る信号処理装置について、図3を用いて説明する。図3は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。
次に本発明の第4実施形態に係る信号処理装置について、図4を用いて説明する。図4は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。
次に本発明の第5実施形態に係る信号処理装置について説明する。本実施形態に係る信号処理装置は、例えば、風切り音のような非定常雑音を適切に抑圧する。簡単に説明すると、周波数領域において、入力音中の定常成分を推定して、推定された定常成分で入力音の一部または全部を置換する。ここで入力音は音声に限定されるものではない。例えば、音声以外に、環境音(街頭の雑踏の音、電車・自動車の走行音、警報・警告音、拍手の音など)、人や動物の声(小鳥のさえずり、犬・猫の鳴き声、笑い声や泣き声、歓声、など)、音楽などを入力音としてもよい。なお、本実施形態では、音声を入力音の代表例として説明する。
図7は、変換部501の構成を示すブロック図である。図7に示すように、変換部501はフレーム分割部711、窓がけ処理部(windowing unit)712、およびフーリエ変換部713を含む。劣化信号サンプルは、フレーム分割部711に供給され、K/2サンプルごとのフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部712に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号x(t, n) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。
図8は、逆変換部504の構成を示すブロック図である。図8に示すように、逆変換部504は逆フーリエ変換部811、窓がけ処理部812およびフレーム合成部813を含む。逆フーリエ変換部811は、置換部503から供給された強調信号振幅スペクトル(|Y(k, n)|)(図中Y)と変換部501から供給された劣化信号位相スペクトル520(arg |X(k, n)|)とを乗算して、強調信号スペクトル(以下の式の左辺)を求める。
定常成分スペクトルとは、入力信号振幅スペクトルに含まれる定常成分のことである。定常成分は、パワーの時間変化が入力信号よりも小さいという特徴を持つ。時間変化は差分または比で算出されることが一般的である。時間変化を差分で計算する場合、あるフレーム n において入力信号振幅スペクトルと定常成分スペクトルを比較すると、次式の関係を満足する周波数 k が少なくとも1つは存在する。
つまり、全てのフレームnと周波数 k において、上式の左辺のほうが右辺よりも必ず大きい場合、N(k, n)は定常成分スペクトルでは無い、と定義できる。関数がXとNの指数や対数、累乗でも同様に定義できる。
定常成分推定部502における定常成分スペクトルN(k, n)の推定には、非特許文献1や非特許文献2に記載の方法など、様々な推定方法が利用できる。
図9は、音声検出部505、605の一例の構成を示す図である。音声検出部505、605は、周波数方向差分算出部902と積算部903と解析部904とを含む。周波数方向差分算出部902は、周波数方向における振幅成分信号の変化のノルムを算出する。周波数方向の変化とは、主に隣り合う周波数成分の差分や比のことを言う。例えば、変化を差分と定義した場合、振幅成分信号を|X(k, n)| とすると(ただし、kは周波数番号、nはフレーム番号)、周波数方向の変化のノルムD(k, n)を次のように計算する。D(k, n) = Lm|(X(k-1, n)| - |X(k, n)|)Lm(・)はLmノルムを表す。mは、1や2のほか、無限大でもよい。L1ノルムならば、D(k, n)は差分の絶対値、つまり以下のように計算できる。D(k, n) = ||X(k-1, n)|-|X(k, n)||
図10、図11は、ある時刻nにおける、劣化信号振幅スペクトル(入力信号スペクトル)|X(k, n)|を示す図である。図10のように、隣り合う周波数での振幅の差分のノルムの総和が小さいとき、雑音と判定する。一方、図11のように、隣り合う周波数での振幅の差分のノルムの総和が大きいとき、音声(所望音声、目的音)と判定する。
図12は、音声検出部505、605の他の例の構成を示す図である。この例での音声検出部505、605は、周波数方向差分算出部1202、1212と積算部1203、1213と解析部1204と周波数方向平滑化部1205と時間方向平滑化部1215とを含む。周波数方向平滑化部1205は、劣化振幅成分信号|X(k, n)|を、周波数方向に平滑化する。
図13は、性別によるスペクトル形状の違いを説明するための図である。グラフ1301、1302を比べれば分かるように、女声および子供声は、男声と比較して変動がゆるやかである。男声は変動が密集しているため、周波数方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。つまり、周波数方向平滑化部1205を用いることにより、女声および子供声を、正確に抽出できる。一方、女声および子供声は変動が緩やかであるため、時間方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。つまり、時間方向平滑化部1215を用いることにより、男声を、正確に抽出できる。
図14は、p(k, n)の値に応じた、出力信号Y(k, n)のスペクトル形状の変化を示す図である。図14の上のグラフは、p(k, n)が1(=音声)に近いときを表わしており、処理結果Y(k, n)は、入力信号|X(k, n)|により近いスペクトル形状となる。一方、図14の下のグラフは、p(k, n)が0(=非音声)に近いときを表わしており、処理結果Y(k, n)は、定常成分信号N(k, n)により近いスペクトル形状となる。
図5に示した置換部503で定常成分信号N(k, n)に積算する係数α(k, n)としては経験的に適切な値を決める。例えば、α(k, n)=1なら、Y(k, n)=N(k, n)となり、定常成分信号N(k, n)がそのまま逆変換部504への出力信号となる。このとき、定常成分信号N(k, n)が大きいと、大きな雑音が残ってしまう。そこで、逆変換部504へ出力する振幅成分信号の最大値が所定値以下になるように、α(k, n)を定めてもよい。例えば、α(k, n)=0.5ならパワー半分の定常成分信号に置き換えることになる。α(k, n)=0.1だと、音は小さくなって形は定常成分信号N(k, n)と同じスペクトル形になる。
次に本発明の第6実施形態に係る信号処理装置について、図15を用いて説明する。図15は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第5実施形態と比べると、比較部1531と上側置換部1532を有する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
劣化信号振幅スペクトル|X(k, n)|との比較に用いるスペクトルの計算方法は、定常成分スペクトルN(k, n)の線形写像関数を用いた方法に限定されない。例えば、α1(k, n)N(k, n)+C(k, n) のように一次関数を採用することも可能である。その際、C(k, n) < 0とすれば定常成分信号に置き換えられる帯域が増えるので、耳障りな非定常雑音を多く抑圧できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルN(k, n)の関数を用いることも可能である。
(1)あらかじめ入力信号の短時間移動平均X_bar(k, n)(kとnは、それぞれ周波数および時刻に対応するインデックス)を、例えば、以下のように計算しておく|X_bar(k, n)| = (|X(k, n-2)| + |X(k, n-1)| + |X(k, n)| + |X(k, n+1)| + |X(k, n+2)|)/5(2)短時間移動平均(|X_bar(k, n)|)と置き換え後の値(α2(k, n)・N(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにα2(k, n)の値を変更する。変更後の値を α2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に α2_hat(k, n) = 0.5・α2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)α2_hat(k, n) = |X_bar(k, n)|/|N(k, n)| とする (|X_bar(k, n)| と |N(k, n)|を使って計算する)。 (c)α2_hat(k, n) = 0.8・|X_bar(k, n)|/|N(k, n)| + 0.2 とする (同上)。
計算式1:α2(k, n-1) = |X_bar(k, n)|/N(k, n)
計算式2:α2(k, n) = |X_bar(k, n)|/N(k, n)
計算式3:α2(k, n+1) = |X_bar(k, n)|/N(k, n)
このように、定常成分信号N(k, n)では短い時間での振幅成分信号の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。
次に本発明の第7実施形態に係る信号処理装置について、図16を用いて説明する。図16は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第5実施形態と比べると、比較部1631と下側置換部1632を有する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
成分|X(k, n)|が定常成分信号N(k, n)のβ1(k, n)倍より小さいところのみ、定常成分信号N(k, n)のβ2(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を置換部603の出力信号Y(k, n)とする。つまり、下側置換部1632は、音声検出部505からの音声有無信号(0/1)を入力し、非音声、かつ|X(k, n)|<β1(k, n)N(k, n)ならば|Y(k, n)|=β2(k, n)N(k, n)、そうでなければ|Y(k, n)|=|X(k, n)|とする。
(1)あらかじめ入力信号の短時間移動平均X_bar(k, n)(kとnは、それぞれ周波数および時刻に対応するインデックス)を、例えば、以下のように計算しておくX_bar(k, n) = (X(k, n-2) + X(k, n-1) + X(k, n) + X(k, n+1) + X(k, n+2))/5(2)短時間移動平均(X_bar(k, n))と置き換え後の値(β2(k, n)・N(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにβ2(k, n)の値を変更する。変更後の値を β2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に β2_hat(k, n) = 0.5・β2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)β2_hat(k, n) = X_bar(k, n)/N(k, n) とする (X_bar(k, n) と N(k, n)を使って計算する)。 (c)β2_hat(k, n) = 0.8・X_bar(k, n)/N(k, n) + 0.2 とする (同上)。
計算式1:β2(k, n-1) = X_bar(k, n)/N(k, n)
計算式2:β2(k, n) = X_bar(k, n)/N(k, n)
計算式3:β2(k, n+1) = X_bar(k, n)/N(k, n)
このように、定常成分信号N(k, n)では、短い時間での振幅成分の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。
次に本発明の第8実施形態に係る信号処理装置について、図17を用いて説明する。図17は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第6実施形態と比べると、第2比較部1733と下側置換部1734を有する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に本発明の第9実施形態に係る信号処理装置について、図18を用いて説明する。図18は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第6実施形態と比べると、上側置換部1832が劣化振幅信号|X(k, n)|の係数α(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第3実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に本発明の第10実施形態に係る信号処理装置について、図19を用いて説明する。図19は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第8実施形態と比べると、上側置換部1932が、第9実施形態の上側置換部1832のように劣化振幅信号|X(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
第1実施形態で説明した音声検出の応用分野については、非特許文献1の2.2節に記載されている通り、以下のものがある。
(1)入力信号から非音声区間の信号を取り除き音声区間のみを符号化して伝送すれば、転送料の削減を実現できる。あるいは、符号化の際に、音声区間と非音声区間とでビットレートを変更すれば、より効果的かつ高品質な情報通信を行なうことができる。
(2)非音声区間と音声区間とで雑音、残響除去、音源分離、エコーキャンセラの処理の切り分けを行なうことで、信号処理を高性能に行なうことができる。
(3)音声認識技術を適用する際に、音声区間と非音声区間とを切り分け、音声区間のみを認識対象とすることで認識誤りを低下させることができる。
(2)複数人が参加した会議の音声データを解析する際に、誰がいつ話したかを判定する。
(3)テレビ放送や映画の字幕などの自動作成の際に、誰がいつ話したかを判定する。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
前記算出手段が算出した前記変化のノルムを積算する積算手段と、
前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
を備えた信号処理装置。
(付記2)
前記解析手段は、前記積算値に応じて、前記入力信号中における音の存在を判定する付記1に記載の信号処理装置。
(付記3)
前記振幅成分信号を、周波数方向に平滑化する周波数方向平滑化手段をさらに有し、
前記算出手段は、前記周波数方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
前記解析手段は、前記積算値に基づいて、女声または子供声の存在を判定することを特徴とする付記1または2に記載の信号処理装置。
(付記4)
前記振幅成分信号を、時間方向に平滑化する時間方向平滑化手段をさらに有し、
前記算出手段は、前記時間方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
前記解析手段は、前記積算値に基づいて、男声の存在を判定することを特徴とする付記1乃至3のいずれか1項に記載の信号処理装置。
(付記5)
前記解析手段は、前記積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、前記特定の人物の声の存在を判定することを特徴とする付記1または2に記載の信号処理装置。
(付記6)
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
を備えた信号処理方法。
(付記7)
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
をコンピュータに実行させる信号処理プログラム。
Claims (7)
- 入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
前記算出手段が算出した前記変化のノルムを積算する積算手段と、
前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
を備えた信号処理装置。 - 前記解析手段は、前記積算値に応じて、前記入力信号中における音の存在を判定する請求項1に記載の信号処理装置。
- 前記振幅成分信号を、周波数方向に平滑化する周波数方向平滑化手段をさらに有し、
前記算出手段は、前記周波数方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
前記解析手段は、前記積算値に基づいて、女声または子供声の存在を判定する請求項1または2に記載の信号処理装置。 - 前記振幅成分信号を、時間方向に平滑化する時間方向平滑化手段をさらに有し、
前記算出手段は、前記時間方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
前記解析手段は、前記積算値に基づいて、男声の存在を判定する請求項1乃至3のいずれか1項に記載の信号処理装置。 - 前記解析手段は、前記積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、前記特定の人物の声の存在を判定する請求項1または2に記載の信号処理装置。
- 入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
を備えた信号処理方法。 - 入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
をコンピュータに実行させる信号処理プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013083412 | 2013-04-11 | ||
JP2013083412 | 2013-04-11 | ||
PCT/JP2014/058962 WO2014168022A1 (ja) | 2013-04-11 | 2014-03-27 | 信号処理装置、信号処理方法および信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014168022A1 true JPWO2014168022A1 (ja) | 2017-02-16 |
JP6439682B2 JP6439682B2 (ja) | 2018-12-19 |
Family
ID=51689433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015511205A Active JP6439682B2 (ja) | 2013-04-11 | 2014-03-27 | 信号処理装置、信号処理方法および信号処理プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10431243B2 (ja) |
EP (1) | EP2985762A4 (ja) |
JP (1) | JP6439682B2 (ja) |
CN (1) | CN105103230B (ja) |
WO (1) | WO2014168022A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
EP3223279B1 (en) * | 2016-03-21 | 2019-01-09 | Nxp B.V. | A speech signal processing circuit |
US10535360B1 (en) * | 2017-05-25 | 2020-01-14 | Tp Lab, Inc. | Phone stand using a plurality of directional speakers |
CN113986187B (zh) * | 2018-12-28 | 2024-05-17 | 阿波罗智联(北京)科技有限公司 | 音区幅值获取方法、装置、电子设备及存储介质 |
CN112152731B (zh) * | 2020-09-08 | 2023-01-20 | 重庆邮电大学 | 一种基于分形维数的无人机探测与识别方法 |
CN112528853B (zh) * | 2020-12-09 | 2021-11-02 | 云南电网有限责任公司昭通供电局 | 改进型双树复小波变换去噪方法 |
CN114242098B (zh) * | 2021-12-13 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2004272052A (ja) * | 2003-03-11 | 2004-09-30 | Fujitsu Ltd | 音声区間検出装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
JP3454206B2 (ja) | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
EP1280137B1 (en) * | 2001-07-24 | 2004-12-29 | Sony International (Europe) GmbH | Method for speaker identification |
US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
US8959019B2 (en) * | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
WO2004111996A1 (ja) * | 2003-06-11 | 2004-12-23 | Matsushita Electric Industrial Co., Ltd. | 音響区間検出方法および装置 |
SG120121A1 (en) * | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
WO2006046293A1 (ja) | 2004-10-28 | 2006-05-04 | Fujitsu Limited | 雑音抑圧装置 |
JP4753821B2 (ja) * | 2006-09-25 | 2011-08-24 | 富士通株式会社 | 音信号補正方法、音信号補正装置及びコンピュータプログラム |
JP4264841B2 (ja) * | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
US20110035215A1 (en) * | 2007-08-28 | 2011-02-10 | Haim Sompolinsky | Method, device and system for speech recognition |
WO2009084221A1 (ja) * | 2007-12-27 | 2009-07-09 | Panasonic Corporation | 符号化装置、復号装置およびこれらの方法 |
US8306817B2 (en) * | 2008-01-08 | 2012-11-06 | Microsoft Corporation | Speech recognition with non-linear noise reduction on Mel-frequency cepstra |
CA2736133C (en) * | 2008-09-05 | 2016-11-08 | Auraya Pty Ltd | Voice authentication system and methods |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8856001B2 (en) * | 2008-11-27 | 2014-10-07 | Nec Corporation | Speech sound detection apparatus |
JP5293329B2 (ja) * | 2009-03-26 | 2013-09-18 | 富士通株式会社 | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
JP5223786B2 (ja) * | 2009-06-10 | 2013-06-26 | 富士通株式会社 | 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機 |
JP5267362B2 (ja) * | 2009-07-03 | 2013-08-21 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
US20110125494A1 (en) * | 2009-11-23 | 2011-05-26 | Cambridge Silicon Radio Limited | Speech Intelligibility |
GB2476043B (en) * | 2009-12-08 | 2016-10-26 | Skype | Decoding speech signals |
US8831942B1 (en) * | 2010-03-19 | 2014-09-09 | Narus, Inc. | System and method for pitch based gender identification with suspicious speaker detection |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
JP5762168B2 (ja) | 2011-06-22 | 2015-08-12 | キヤノン株式会社 | 撮像装置及び再生装置 |
CN102737480B (zh) * | 2012-07-09 | 2014-03-05 | 广州市浩云安防科技股份有限公司 | 一种基于智能视频的异常语音监控系统及方法 |
US8924209B2 (en) * | 2012-09-12 | 2014-12-30 | Zanavox | Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals |
US9749021B2 (en) * | 2012-12-18 | 2017-08-29 | Motorola Solutions, Inc. | Method and apparatus for mitigating feedback in a digital radio receiver |
-
2014
- 2014-03-27 US US14/782,928 patent/US10431243B2/en active Active
- 2014-03-27 WO PCT/JP2014/058962 patent/WO2014168022A1/ja active Application Filing
- 2014-03-27 EP EP14782146.6A patent/EP2985762A4/en not_active Withdrawn
- 2014-03-27 JP JP2015511205A patent/JP6439682B2/ja active Active
- 2014-03-27 CN CN201480020787.6A patent/CN105103230B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2004272052A (ja) * | 2003-03-11 | 2004-09-30 | Fujitsu Ltd | 音声区間検出装置 |
Non-Patent Citations (1)
Title |
---|
早川 昭二: "線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識", 電子情報通信学会論文誌, vol. 第J80-A巻 第9号, JPN6018009391, JP, pages 1360 - 1367 * |
Also Published As
Publication number | Publication date |
---|---|
WO2014168022A1 (ja) | 2014-10-16 |
CN105103230A (zh) | 2015-11-25 |
EP2985762A4 (en) | 2016-11-23 |
EP2985762A1 (en) | 2016-02-17 |
CN105103230B (zh) | 2020-01-03 |
US10431243B2 (en) | 2019-10-01 |
US20160071529A1 (en) | 2016-03-10 |
JP6439682B2 (ja) | 2018-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
US10504539B2 (en) | Voice activity detection systems and methods | |
JP5127754B2 (ja) | 信号処理装置 | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
WO2021114733A1 (zh) | 一种分频段进行处理的噪声抑制方法及其系统 | |
US20150340027A1 (en) | Voice recognition system | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
JP6544234B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2014126856A (ja) | 雑音除去装置及びその制御方法 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP5443547B2 (ja) | 信号処理装置 | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
Saleem et al. | Variance based time-frequency mask estimation for unsupervised speech enhancement | |
JPWO2012105385A1 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
Uhle et al. | Speech enhancement of movie sound | |
Hussain et al. | A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies | |
Faycal et al. | Comparative performance study of several features for voiced/non-voiced classification | |
JP7052008B2 (ja) | 有声音声検出の複雑性低減およびピッチ推定 | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Sapozhnykov | Sub-band detector for wind-induced noise | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Paul et al. | Effective Pitch Estimation using Canonical Correlation Analysis | |
US20230419980A1 (en) | Information processing device, and output method | |
Kumar et al. | Comparative Studies of Single-Channel Speech Enhancement Techniques | |
Jesudhas et al. | A novel approach to build a low complexity smart sound recognition system for domestic environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180320 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6439682 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |