JPWO2010038385A1 - 音判定装置、音判定方法、及び、音判定プログラム - Google Patents
音判定装置、音判定方法、及び、音判定プログラム Download PDFInfo
- Publication number
- JPWO2010038385A1 JPWO2010038385A1 JP2010510597A JP2010510597A JPWO2010038385A1 JP WO2010038385 A1 JPWO2010038385 A1 JP WO2010038385A1 JP 2010510597 A JP2010510597 A JP 2010510597A JP 2010510597 A JP2010510597 A JP 2010510597A JP WO2010038385 A1 JPWO2010038385 A1 JP WO2010038385A1
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frequency signal
- frequency
- phase
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 144
- 238000004458 analytical method Methods 0.000 claims abstract description 260
- 238000001514 detection method Methods 0.000 claims description 152
- 238000000605 extraction Methods 0.000 claims description 66
- 239000000284 extract Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 abstract description 96
- 238000010586 diagram Methods 0.000 description 114
- 238000012937 correction Methods 0.000 description 84
- 230000008859 change Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 32
- 238000013459 approach Methods 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 18
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 14
- 230000001629 suppression Effects 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 6
- 230000001788 irregular Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
雑音除去装置(100)は、複数のマイクロホン(4107(n)(n=1〜N))と、時間軸調整部(103)と、FFT分析部(2402)と、雑音除去処理部(101)とを含み、雑音除去処理部(101)が、複数のマイクロホンで集音された混合音において、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で示したときの位相距離に対してしきい値判定を行うことにより、抽出音の周波数信号の判定を行う。
Description
本発明は、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定する音判定装置等に関し、特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定する音判定装置等に関する。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定する音判定装置に関する。
第1の従来技術では、入力音声信号(混合音)からピッチ周期の抽出を行い、ピッチ周期が抽出されない場合には雑音であると判定するものがあった(例えば、特許文献1参照)。第1の従来技術では、音声候補と判定された入力音声から音声を認識していた。
図1は、特許文献1に記載された第1の従来技術の構成を示すブロック図である。
この従来技術は、認識部2501と、ピッチ抽出部2502と、判定部2503と、周期範囲記憶部2504とを備える。
認識部2501は、入力音声信号(混合音)から音声部分(抽出音)と推定される信号区間の音声認識候補を出力する処理部である。ピッチ抽出部2502は、入力音声信号からピッチ周期を抽出する処理部である。判定部2503は、認識部2501で出力された信号区間に対する音声認識候補とピッチ抽出部2502で抽出された該区間の信号のピッチ抽出結果とから音声認識結果を出力する処理部である。周期範囲記憶部2504は、ピッチ抽出部2502によって抽出されるピッチ周期に対する周期範囲を記憶している記憶装置である。この従来技術では、ピッチ周期が予め設定されたピッチ周期に対する設定周期範囲内であれば、該認識処理区間の信号は音声候補であると判定し、ピッチ周期に対する周期の範囲外であれば雑音であると判定していた。
第2の従来技術では、第1〜第3の判定手段での判定結果に基づいて、人の声の入力の有無を最終的に判定している(例えば、特許文献2)。第1の判定手段では、入力信号(混合音)から調波構造をもつ信号成分を検出した場合に、人の声(抽出音)が入力されたと判定する。第2の判定手段では、入力信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する。第3の判定手段では、ノイズレベル記憶手段に記憶された雑音レベルに対する入力信号のパワー比が所定のしきい値を超えた場合に、人の声が入力されたと判定する。
第3の従来技術では、複数方向に存在する音源からの音入力を受付けて、同じ周波数ごとに算出された位相成分の差分に基づいて、所定の方向に音源が存在する確率値を求める。また、この確率値に基づいて、所定の方向の音源以外の音源からの音入力を抑圧している(例えば、特許文献3)。
図2は、特許文献3に記載された第3の従来技術の構成を示すブロック図である。
この従来技術に係る指向性集音装置は、音声入力部5100と、音声受付部5101と、信号変換部5102と、位相差分算出部5103と、確率値特定部5104と、抑制関数算出部5105と、振幅算出部5106と、信号補正部5107と、信号復元部5108とを備える。
音声受付部5101は、音源が複数混在する音入力を2本のマイクロホン(音声入力部5100)から受付ける。信号変換部5102は、入力された音声についてスペクトルIN1(f)、IN2(f)に変換する。ここでfは周波数を示している。位相差分算出部5103は、スペクトルIN1(f)、IN2(f)に基づいて位相スペクトルを算出して、位相スペクトル間の差分を周波数ごとに算出する。確率値特定部5104は、集音対象となる音声を発する音源が存在する方向に高い確率値を設定するように確率値を特定する。抑制関数算出部5105は、位相スペクトルの差分及び確率値に基づいて抑制関数gain(f)を周波数ごとに算出する。振幅算出部5106は、入力信号のスペクトルの振幅スペクトル|IN1(f)|の代表値を算出する。信号補正部5107は、振幅算出部5106で算出された振幅スペクトル|IN1(f)|に抑制関数算出部5105で算出された抑制関数gain(f)を乗算する。信号復元部5108は、信号補正部5107からの出力信号を時間軸上の信号に変換して出力する。
第4の従来技術では、オーディオ信号において、位相がランダムに変化する部分は雑音により支配されていると判断することにより、効率的にオーディオ信号の符号化を行う(例えば、特許文献4)。
しかしながら、第1の従来技術の構成では、ピッチ周期は時間区間ごとに抽出されるため、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができなかった。また、エンジン音(エンジンの回転数に応じてピッチ周期が変化する音)などのようにピッチ周期が変化する音を判定することはできなかった。
また、第2の従来技術の構成では、調波構造や周波数重心などのスペクトル形状により抽出音を判定しているため、大きな雑音が混合するとスペクトル形状が歪むため抽出音を判定することができなかった。特に、雑音によりスペクトル形状は失われているが、時間‐周波数領域ごとにみれば抽出音が部分的に存在する場合に、この部分の周波数信号を抽出音の周波数信号として判定することができなかった。
また、第3の従来技術の構成では、所定の方向に指向性を向けて集音することで雑音を除去しているため、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音のみを抽出することができなかった。
また、第4の従来技術の構成では、オーディオ信号の符号化を対象としているため、混合音から抽出音のみを抽出する技術に適用することが困難である。
本発明は、前記従来の課題を解決するもので、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定できる音判定装置等を提供することを目的とする。特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定する音判定装置等を提供することを目的とする。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定する音判定装置を提供することを目的とする。
本発明に係る音判定装置は、複数のマイクロホンからそれぞれ集音される複数の混合音を受付けて、所定の方向から到来する音に対して前記複数のマイクロホン間での到達時間差がゼロになるように前記複数の混合音の時間軸を調整する時間軸調整部と、前記時間軸調整部により調整された時間軸上で、所定の時間幅に含まれる前記複数の混合音の周波数信号を所定の時刻ごとに求める周波数分析部と、前記周波数分析部で求められた前記所定の時間幅に含まれる複数の時刻における前記複数の混合音の周波数信号において、第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、抽出音の周波数信号に判定する抽出音判定部とを備え、前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離である。
この構成によると、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での距離(所定の時間幅のおける位相ψ´(t)の時間形状を計る1つの指標)を用いることにより、抽出音と雑音とが同一の方向に存在する場合にも、時間‐周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができて、音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向に存在する抽出音の周波数信号の位相が複数の混合音同士で類似した値になるため、複数の混合音同士での位相距離も合わせることで、1つの混合音を用いるときよりも正確に抽出音の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向以外の方向に存在する音の周波数信号の位相は複数の混合音同士で異なる値になるため、所定の方向以外の方向に存在する音を除去することができる。
好ましくは、上述の音判定装置は、さらに、前記時間軸調整部により調整された時間軸上で、前記所定の時刻ごとに、前記周波数分析部が求めた複数の前記混合音の周波数信号の中から、他の全ての前記混合音の周波数信号との位相差が第3のしきい値以上である前記混合音の周波数信号を特定する雑音特定部を備え、前記抽出音判定部は、前記周波数分析部が求めた前記所定の時間幅に含まれる前記複数の時刻での前記複数の混合音の周波数信号から、前記雑音特定部が特定した周波数信号を除いた前記周波数信号において、前記第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が前記第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号に判定する。
この構成によると、マイクロホン間での混合音の位相差が第3のしきい値以上である雑音の周波数信号を除いてから抽出音の周波数信号を判定するため、第1のしきい値を用いた判定を正確に行うことができて正確に抽出音の判定を行うことができる。例えば、風雑音のようにマイクロホンごとに独立に発生する雑音は、マイクロホン間で位相が異なるため第3のしきい値を用いることで取り除くことができる。また、所定の方向以外の方向に存在する音に対しても、所定の方向に時間軸が調整されたあとのマイクロホン間で位相差は大きくなるため第3のしきい値を用いることで取り除くことができる。
また、他の全ての前記混合音との周波数信号の位相差が第3のしきい値以上である前記混合音の周波数信号を取り除くことで、抽出音の可能性が残る周波数信号を取り除くことなく抽出音の周波数信号を判定することができる。これは、例えば、全てのマイクロホンで位相差が類似する周波数信号以外を全て取り除いてしまうと、いずれか1つのマイクロホンに風雑音のようにマイクロホンごとに独立に発生する雑音が入力された場合に、他のマイクロホンに抽出音が入力されていても全て除去されてしまうからである。
好ましくは、前記時間軸調整部は、前記所定の方向として複数の方向を設定して、前記設定された方向ごとに前記複数の混合音の時間軸を調整し、前記周波数分析部は、前記設定された方向ごとに調整された時間軸で、前記所定の時間幅に含まれる前記複数の混合音の周波数信号を求め、前記抽出音判定部は、前記設定された方向ごとに、前記方向に対応して調整された時間軸上での前記所定の時間幅に含まれる前記複数の混合音の周波数信号から前記抽出音の周波数信号を判定する。
この構成によると、複数の方向に対して、混合音から抽出音の周波数信号を判定することができる。このため、抽出音の方向がわからない場合でも抽出音の周波数信号を判定することができる。
本発明の他の局面に係る音検知装置は、上述の音判定装置と、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部とを備える。
この構成によると、時間‐周波数領域ごとに、抽出音を検出して利用者に知らせることができる。例えば、車両検知装置に組み込んだ場合には、抽出音としてエンジン音を検出して、運転者に車両の接近を知らせることができる。
本発明のさらに他の局面に係る音抽出装置は、上述の音判定装置と、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号であると判定された周波数信号を出力する音抽出部とを備える。
この構成によると、時間‐周波数領域ごとに判定された抽出音の周波数信号を利用できるため、例えば、音出力装置に組み込めば、雑音が除去されたあとのきれいな抽出音が再現できる。また、音源方向検知装置に組み込めば、雑音が除去されたあとの正確な音源方向を求めることができる。また、音識別装置に組み込めば、周囲に雑音が存在する場合でも正確に音識別を行うことができる。
本発明のさらに他の局面に係る方向検知装置は、上述の音判定装置と、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号が判定された前記所定の方向を前記抽出音の音源方向として出力する方向検知部とを備える。
この構成によると、抽出音の周波数信号が判定された方向を抽出音の音源方向に判定することで、複数の方向に抽出音が存在する場合でも抽出音の各々の音源方向を出力することができる。特に、異なる種類の抽出音(例えば、Aさんの音声とBさんの音声)が異なる方向から入力された場合でも各々の抽出音の音源方向を出力することができる。
好ましくは、前記方向検知部は、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号が判定された前記所定の方向のうち、前記位相距離が最小になる方向を前記抽出音の音源方向として出力する。
この構成によると、位相距離が最小になる方向を抽出音の音源方向として出力するため、1つの方向から抽出音が入力された場合に抽出音の正確な音源方向を出力することができる。
なお、本発明は、このような特徴的な処理部を備える音判定装置として実現することができるだけでなく、音判定装置に含まれる特徴的な処理部をステップとする音判定方法として実現したり、音判定方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音判定装置等によれば、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができる。特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定することができる。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定することができる。
例えば、時間‐周波数領域ごとに判定された音声の周波数信号を入力して逆周波数変換により抽出音を出力する音声出力装置や、方向ごとの混合音から時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して抽出音の音源方向を出力する音源方向検知装置や、時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して音声認識や音識別を行う音識別装置や、時間‐周波数領域ごとに判定されたエンジン音を検知して車両の接近を知らせる車両検知装置や、時間‐周波数領域ごとに判定されたサイレン音の周波数信号を検知して緊急車両の接近を知らせる緊急車両検知装置や、時間‐周波数領域ごとに判定されたエンジン音やサイレン音が存在する方向を運転者に知らせる車両検知装置等に適用できる。
本発明の特徴は、入力した混合音を周波数分析した後に、分析した周波数信号の位相の時間変化が、(1/f)(fは分析周波数)で規則的に繰り返されるか否かにより、分析周波数fにおいて、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定することである。
図3Aおよび図3Bは、本発明の特徴を説明する概念図である。図3Aは、バイク音(エンジン音)を周波数fで周波数分析した結果を模式的に示した図である。図3Bは、暗騒音を周波数fで周波数分析した結果を模式的に示した図である。両図ともに横軸は時間軸であり縦軸は周波数軸である。図3Aに示すように、周波数の時間変化などの影響により周波数信号の振幅(パワー)の大きさは変化するものの、周波数信号の位相の時間変化は、規則的に1/fの時間間隔(fは分析周波数)で等角速度で0〜2π(ラジアン)まで変化する。例えば、100Hzにおける周波数信号では位相は10ms間隔の間に2π(ラジアン)回転して、200Hzにおける周波数信号では位相は5ms間隔の間に2π(ラジアン)回転する。一方、図3Bに示すように、暗騒音などの音色のない音における周波数信号の位相の時間変化は不規則になる。また、混合音が原因で歪んだ部分においても位相の時間変化は乱れて不規則になる。このように、周波数信号の位相の時間変化が規則的な時間‐周波数領域の周波数信号を判定することで、風雑音、雨音、暗騒音などの音色のない音と区別して、エンジン音、サイレン音、音声などの音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
さらに、サイレン音のように機械的で正弦波に近い音と、バイク音(エンジン音)のように物理機構的な音とは、位相の時間変化の規則的な度合いが異なると考えられる。このため位相の時間変化の規則的な度合いを不等号で表すと、
また、本発明では、位相距離を用いているため、雑音と抽出音との周波数信号のパワーの大小に関係なく抽出音の周波数信号を判定することができる。例えば、ある時間‐周波数領域での雑音の周波数信号のパワーが大きい場合でも、位相の規則性を用いることで、この雑音よりもパワーが大きい時間‐周波数領域の抽出音の周波数信号を判定できることはもちろん、この雑音よりもパワーが小さい時間‐周波数領域の抽出音の周波数信号も判定することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図4は、本発明の実施の形態1における雑音除去装置の外観図である。雑音除去装置100は、請求の範囲に記載の時間軸調整部と、周波数分析部と、抽出音判定部と、音抽出部とを備えるものであり、コンピュータを構成する1つの部品であるCPUにより構成される。
図4は、本発明の実施の形態1における雑音除去装置の外観図である。雑音除去装置100は、請求の範囲に記載の時間軸調整部と、周波数分析部と、抽出音判定部と、音抽出部とを備えるものであり、コンピュータを構成する1つの部品であるCPUにより構成される。
図5及び図6は、本発明の実施の形態1における雑音除去装置の構成を示すブロック図である。
図5において、雑音除去装置100は、時間軸調整部103(請求の範囲の時間軸調整部)と、FFT分析部2402(請求の範囲の周波数分析部)と、雑音除去処理部101(請求の範囲の抽出音判定部と音抽出部とから構成される)とを含む。時間軸調整部103、FFT分析部2402、および、雑音除去処理部101は、コンピュータ上で各処理部の機能を実現するためのプログラムを実行することにより実現される。
複数のマイクロホン4107(n)(n=1〜N)は、混合音2401(n)(n=1〜N)を入力する。
このあとに、混合音2401(n)(n=1〜N)をDVD−ROMなどの記録媒体に蓄積して、記録媒体に蓄積された混合音2401(n)(n=1〜N)を用いて以下の処理を行ってもよい。
FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める。以下では、FFT分析部2402で求められた周波数信号の周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
このとき、初めに、時間軸調整部103は、混合音2401(n)(n=1〜N)の時間軸を調整して、次に、FFT分析部2402は、調整された時間軸上での所定の時間幅に含まれる混合音2401(n)(n=1〜N)を用いて周波数信号を求めてもよい。また、処理の順番を逆にして、初めに、FFT分析部2402は、混合音2401(n)(n=1〜N)の周波数信号を求めて、次に、時間軸調整部103は、混合音2401(n)(n=1〜N)の時間軸を調整して、調整された時間軸上での所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を選択してもよい。
雑音除去処理部101は、抽出音判定部101(j)(j=1〜M)(請求の範囲の抽出音判定部)と音抽出部202(j)(j=1〜M)(請求の範囲の音抽出部)とを含む。雑音除去処理部101は、FFT分析部2402が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに、抽出音判定部101(j)(j=1〜M)と音抽出部202(j)(j=1〜M)とを用いて混合音から抽出音の周波数信号を取り出すことで雑音の除去を行う処理部である。
抽出音判定部101(j)(j=1〜M)は、時間軸調整部103により調整された時間軸上での、所定の時間幅に含まれる1/f(fは分析周波数)の時間間隔の時刻から選択される複数の時刻の混合音2401(n)(n=1〜N)の周波数信号を用いて、分析の対象の周波数信号と、所定の時間幅に含まれる複数の周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。また、位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの距離である。そして、位相距離が第2のしきい値以下になる分析の対象とする時刻の周波数信号を抽出音の周波数信号2408に判定する。
このとき、抽出音の周波数信号2408が、いずれの混合音2401(n)(n=1〜N)から判定されたのかを特定することもできる。
最後に、音抽出部202(j)(j=1〜M)は、抽出音判定部101(j)(j=1〜M)が判定した抽出音の周波数信号2408を取り出すことで混合音から雑音の除去を行う。
これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間‐周波数領域ごとに抽出音の周波数信号2408を取り出すことができる。
図6に、抽出音判定部101(j)(j=1〜M)の構成を示すブロック図を示す。
抽出音判定部101(j)(j=1〜M)は、周波数信号選択部200(j)(j=1〜M)と、位相距離判定部201(j)(j=1〜M)とから構成される。
周波数信号選択部200(j)(j=1〜M)は、位相距離を求める際に用いる周波数信号として、時間軸調整部103により調整された時間軸上での、所定の時間幅の混合音2401(n)(n=1〜N)の周波数信号から第1のしきい値以上の数から構成される周波数信号を選択する処理部である。位相距離判定部201(j)(j=1〜M)は、周波数信号選択部200(j)(j=1〜M)が選択した混合音2401(n)(n=1〜N)の周波数信号の位相を用いて位相距離を計算して、位相距離が第2のしきい値以下になる周波数信号を抽出音の周波数信号2408に判定する処理部である。
次に、以上のように構成された雑音除去装置100の動作について説明する。
以下では、j番目の周波数帯域について説明を行う。ここでは、周波数帯域の中心周波数と分析周波数(位相距離を求めるψ´(t)=mod2π(ψ(t)−2πft)における周波数fであって、周波数fに抽出音が存在するか否かを判定することになる)とが一致する場合を例にして説明を行う。他の方法として、周波数帯域を含む複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。
図7及び図8は、雑音除去装置100の動作手順を示すフローチャートである。
ここでは、混合音2401(n)(n=1〜N)として、音声A(有声音)と音声B(有声音)と暗騒音との混合音を用いた場合を一例として説明を行う。この例では、音声Aと音声Bとは異なる方向に音源があって、音声Aの方向は既知であって、混合音2401(n)(n=1〜N)から音声Bと暗騒音とを除去して音声A(抽出音)の周波数信号を抽出することを目的とする。
例えば、車内の複数の音声から運転者の音声だけを集音して音声コマンド入力を行うカーナビゲーションシステムの音声認識機能などに利用できる。
初めに、FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により音声Aの方向(所定の方向)から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める。(ステップS300)。この例では、高速フーリエ変換処理により複素空間上での周波数信号を求めている。
ここで、時間軸調整部103が、所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように時間軸を調整する方法について説明する。ここでは所定の方向をΘとする。
図9は、マイクロホン4107(n)(n=1〜N)と所定の方向(Θ)から到達する音との関係の一例を示した図である。この例では、マイクロホンの本数を3本(N=3)としている。ここで、マイクロホン4107(1)とマイクロホン4107(2)との距離をL2として、マイクロホン4107(1)とマイクロホン4107(3)との距離をL3とすると、マイクロホン4107(1)とマイクロホン4107(2)との到達時間差τ2と、マイクロホン4107(1)とマイクロホン4107(3)との到達時間差τ3は以下の式で求めることができる。
ここで、Cは音速である。
図10に、所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように時間軸を調整した混合音の一例を示す。横軸は時間軸を示している。図10(a)には、時間軸を調整する前の混合音が示されており、図10(b)には、時間軸が調整された後の混合音が示されている。図10(b)に示すように、混合音2401(1)を基準として、混合音2401(2)の時間軸をτ2の時刻だけ遅らせて、混合音2401(3)の時間軸をτ3の時刻だけ遅らせることで、所定の方向(Θ)から到達する音に対して時刻が揃うように時間軸を調整することができる。
次に、雑音除去処理部101は、FFT分析部2402が求めた周波数信号に対して、周波数帯域jごとに、抽出音判定部101(j)を用いて混合音から抽出音の周波数信号を時間‐周波数領域ごとに判定する(ステップS301(j))。そして、音抽出部202(j)を用いて抽出音判定部101(j)が判定した抽出音の周波数信号を取り出すことで雑音の除去を行う(ステップS302(j))。この後の説明はj番目の周波数帯域に関してのみ行う。この例では、j番目の周波数帯域の中心周波数はfである。
抽出音判定部101(j)は、所定の時間幅における1/fの時間間隔の全ての時刻における周波数信号を用いて、分析の対象と周波数信号と、所定の時間幅に含まれる全ての周波数信号(混合音2401(n)(n=1〜N)の周波数信号)との位相距離を求める(ここでは、第1のしきい値として、所定の時間幅に含まれる1/fの時間間隔の周波数信号の数の30%の値を用いている。)。そして、位相距離が第2のしきい値以下である分析の対象とする周波数信号を抽出音の周波数信号2408に判定する(ステップS301(j))。最後に、音抽出部202(j)は、抽出音判定部101(j)が抽出音の周波数信号と判定した周波数信号を取り出すことで雑音を除去する(ステップS302(j))。
図11には、周波数fにおける混合音2401(n)(n=1〜N)の周波数信号が模式的に示されている。水平軸は時間軸であり垂直平面の2軸は周波数信号の実部と虚部とを表している。ここでの時間軸は、所定の方向に時間軸が調整されたあとのものである。
初めに、周波数信号選択部200(j)は、第1のしきい値以上である、所定の時間幅における全ての1/fの時間間隔の混合音2401(n)(n=1〜N)の周波数信号を選択する(ステップS400(j))。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合には、位相の時間変化の規則性を判定することが困難になるからである。図11には、1/fの時間間隔の時刻から選択された周波数信号の位置が白丸印で示されている。
ここで、図12Aと図12Bとに、周波数信号の他の選択方法を示す。表示の方法は図11と同じであるため説明を省略する。図12Aには、1/fの時間間隔の時刻から、1/f×N(N=2)の時間間隔の時刻の周波数信号を選択する一例が示されている。また、図12Bには、1/fの時間間隔の時刻から、ランダムに選択した時刻の周波数信号を選択する一例が示されている。すなわち、周波数信号を選択する方法は、1/fの時間間隔の時刻から得られる周波数信号を選択するいかなる方法を用いてもよい。ただし、選択される周波数信号の数は第1のしきい値以上である必要がある。
ここで、周波数信号選択部200(j)は、位相距離判定部201(j)が位相距離の計算に用いる周波数信号の時間範囲(所定の時間幅)も設定するが、時間範囲の設定方法の説明については、位相距離判定部201(j)の説明と合わせて以下で行う。
次に、位相距離判定部201(j)は、周波数信号選択部200(j)が選択した全ての混合音2401(n)(n=1〜N)の周波数信号を用いて位相距離を計算する(ステップS401(j))。ここでは、位相距離としてパワーで正規化された周波数信号同士の相関値の逆数を用いる。
図13に、位相距離の求め方の一例を示す。図13の表示の方法において、図11と共通する部分の説明は省略する。図13において、分析の対象とする周波数信号を黒丸印で示す。ここでの所定の時間幅の時間長は、FFT分析部2402の高速フーリエ変換処理で用いた窓関数の時間窓幅の2〜4倍の長さに設定することが好ましい。
ここで、位相距離の計算方法を以下に説明する。この例では、1/fの時間間隔の周波数信号を用いて位相距離の計算を行う。以下では、混合音2401(n)(n=1〜N)の周波数信号の実部を
ここで位相距離を求めるため、周波数信号のパワーの大きさで正規化された周波数信号を求める。周波数信号の実部をパワーで正規化した値を
位相距離Sを、
ここで、他の位相距離Sの算出方法を以下に示す。相関値の計算において、総和した周波数信号の数で正規化する方法である
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。例えば、数11に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、
次に、位相距離判定部201(j)は、位相距離が第2のしきい値以下である分析の対象とする周波数信号(混合音2401(n)(n=1〜N)の周波数信号)の各々を抽出音(音声A)の周波数信号2408に判定する(ステップS402(j))。
これらの処理を、時間軸方向に時間シフトを行いながら求めた全ての時刻の周波数信号を分析の対象とする周波数信号として行う。
最後に、音抽出部202(j)は、抽出音判定部101(j)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する。
ここで、雑音として除去される周波数信号の位相について考察を加える。ここでは、第2のしきい値をπ/2(ラジアン)に設定している。図14は、位相距離を求める所定の時間幅における、混合音の周波数信号の位相を模式的に示したものである。横軸は時間であり縦軸は位相である。黒丸印は分析の対象とする周波数信号の位相を示す。ここでは1/fの時間間隔での周波数信号の位相が示されている。図14(a)に示すように、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での位相の距離を求めることは、分析の対象とする周波数信号の位相ψ(t)を通り、時刻tに対して2πfの傾きをもつ直線(1/fの時間間隔では時間軸に水平な直線になる)とのψ(t)での距離を求めることと同じになる。図14(a)では、この直線の近傍に周波数信号の位相が集まっているため、第1のしきい値以上の数の周波数信号との位相距離は第2のしきい値以下になり抽出音の周波数信号に判定される。また、図14(b)のように、分析の対象とする周波数信号の位相を通り、時間に対して2πfの傾きをもつ直線の近傍に、周波数信号がほとんど存在しない場合には、第1のしきい値以上の数の周波数信号との位相距離が第2のしきい値より大きくなるため、抽出音の周波数信号として判定されることはなく雑音として除去される。
このとき、所定の方向に存在する音声Aの周波数信号については、音声Aは音色をもつ音であるとともに、混合音2401(n)(n=1〜N)は音声Aの方向に時間軸が調整されているため、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)は類似した値をもつことになり、音声Aの周波数信号が抽出される。
また、所定の方向に存在しない音声Bの周波数信号については、音声Bは音色をもつ音ではあるが、混合音2401(n)(n=1〜N)は音声Bの方向には時間軸が調整されていないため、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)は分散した値をもつことになり、音声Bの周波数信号を除去することができる。
また、暗騒音の周波数信号については、暗騒音は音色をもたない音であるため、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)は分散した値をもつことになり、暗騒音の周波数信号を除去することができる。
かかる構成によれば、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析する周波数)で表したときの位相の距離を用いることにより、抽出音と雑音とが同一の方向に存在する場合にも、時間‐周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができて、音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向に存在する抽出音の周波数信号の位相が複数の混合音同士で類似した値になるため、複数の混合音同士での位相距離も合わせることで、1つの混合音を用いるときよりも正確に抽出音の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向以外の方向に存在する音の周波数信号の位相は複数の混合音同士で異なる値になるため、所定の方向以外の方向に存在する音を除去することができる。
また、1/f(fは分析周波数)の時間間隔の周波数信号では、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)となり、位相距離の計算をψ(t)を用いた簡単な計算で行うことができる。
ここで、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での位相の距離について説明する。図3Aを用いて説明したように音色のある音の周波数信号(周波数fの成分をもつとする)は、所定の時間幅において位相は規則的に等角速度かつ1/fの時間間隔の間に2π(ラジアン)回転する。
図15(a)に、周波数分析を行うときに抽出音に畳み込むDFT(Discrete Fourier Transform)の波形を示す。実部はコサイン波形で虚部はマイナスのサイン波形である。ここでは、周波数fの信号について分析を行う。抽出音が周波数fの正弦波であるとき、周波数分析を行ったときの周波数信号の位相ψ(t)の時間変化は、図15(b)に示すように反時計回りになる。このとき、横軸は実部であり縦軸は虚部である。反時計回りの位相ψ(t)を正とすると、位相ψ(t)は1/fの時間で2π(ラジアン)増加する。また、位相ψ(t)は時刻tに対して2πfの傾きで変化するとも言える。図16を用いて、位相ψ(t)の時間変化が反時計回りになる仕組みについて説明する。図16(a)に、抽出音(周波数fの正弦波)を示す。ここでは抽出音の振幅の大きさ(パワーの大きさ)を1に正規化している。図16(b)に、周波数分析を行うときに抽出音に畳み込むDFTの波形(周波数f)を示す。実線は実部のコサイン波形を破線は虚部のマイナスのサイン波形を示している。図16(c)に、図16(a)の抽出音と図16(b)のDFTの波形を畳み込んだときの値の符号を示す。図16(c)より、時刻が(t1〜t2)のとき図15(b)の第1象限に、時刻が(t2〜t3)のとき図15(b)の第2象限に、時刻が(t3〜t4)のとき図15(b)の第3象限に、時刻が(t4〜t5)のとき図15(b)の第4象限に位相が変化することがわかる。このことから、位相ψ(t)の時間変化が反時計回りになることがわかる。
ここで補足であるが、図17(a)のように、横軸を虚部にして縦軸を実部にするという特殊なことをすると位相ψ(t)の増減が反転して、位相ψ(t)は時刻tに対して(−2πf)の傾きで変化することが起こるが、ここでは図15(b)の軸の取り方に補正されているとして説明を行う。また、図17(b)のように、周波数分析を行うときに畳み込む波形を、実部をコサイン波形に虚部をサイン波形にするという特殊なことをすると位相ψ(t)の増減が反転して、位相ψ(t)は時刻tに対して(−2πf)の傾きで変化することが起こるが、ここでは、図15(a)の周波数分析の結果にあうように実部と虚部の符号が補正されていることを前提として説明を行う。
このことから、音色のある音の周波数信号の位相ψ(t)は時刻tに対して2πfの傾きで変化するため、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析する周波数)での位相の距離は小さくなる。
(実施の形態1の変形例)
次に、実施の形態1に示した雑音除去装置の変形例について説明する。
次に、実施の形態1に示した雑音除去装置の変形例について説明する。
変形例に係る雑音除去装置は、図5及び図6を参照して説明した実施の形態1に係る雑音除去装置と同様の構成を有する。ただし、雑音除去処理部101が実行する処理が異なる。
抽出音判定部101(j)(請求の範囲の抽出音判定部)において、位相距離判定部201(j)は、周波数信号選択部200(j)が選択した1/fの時間間隔の時刻の周波数信号を用いて、位相のヒストグラムを作成して、ヒストグラムから、位相距離が第2のしきい値以下でありかつ出現頻度が第1のしきい値以上である周波数信号を判定して、抽出音の周波数信号2408に判定する。
最後に、音抽出部202(j)(請求の範囲の音抽出部)は、位相距離判定部201(j)が判定した抽出音の周波数信号2408を取り出すことで雑音を除去する。
次に、以上のように構成された雑音除去装置100の動作について説明する。雑音除去装置100の動作手順を示すフローチャートは、実施の形態1と同様であり、図7及び図8に示されている。
雑音除去処理部101は、FFT分析部2402(請求の範囲の周波数分析部)が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに抽出音判定部101(j)(j=1〜M)を用いて抽出音の周波数信号を判定する(ステップS301(j)(j=1〜M))。この後の説明は、j番目の周波数帯域に関してのみ行う。この例では、j番目の周波数帯域の中心周波数はfである。
抽出音判定部101(j)は、周波数信号選択部200(j)が選択した1/fの時間間隔の時刻の混合音2401(n)(n=1〜N)の周波数信号を用いて位相のヒストグラムを作成する。そして、位相距離が第2のしきい値以下でありかつ出現頻度が第1のしきい値以上である周波数信号を抽出音の周波数信号2408に判定する。(ステップS301(j))。
位相距離判定部201(j)は、周波数信号選択部200(j)が選択した周波数信号を用いて、上記周波数信号の位相のヒストグラムを作成して位相距離を判定する(ステップS401(j))。以下、ヒストグラムを求める方法について説明する。
周波数信号選択部200(j)が選択した周波数信号を、数4、数5で表すことにする。ここで、以下の式を用いて周波数信号の位相を求める。
図18に、周波数信号の位相のヒストグラムを作成する方法の一例を示す。ここでは、位相区間がΔψ(i)(i=1〜4)で、位相が時間に対して2πf(fは分析周波数)の傾きで変化する帯領域ごとの、所定の時間幅における周波数信号の出現頻度を求めることでヒストグラムを作成する。図18の斜線で示されている部分はΔψ(1)の領域である。ここでは位相を0〜2π(ラジアン)の間に制限して表現しているためにとびとびの領域になっている。ここで、Δψ(i)(i=1〜4)ごとにそれらの領域に含まれる周波数信号の数をカウントすることでヒストグラムを作成することができる。
図19に、周波数信号選択部200(j)が選択した周波数信号と、上記選択された位相のヒストグラムの一例を示す。ここでは、図18のヒストグラムよりも細かいΔψ(i)(i=1〜L)で分析している。ここでは、選択された周波数信号の一部である混合音2401(n)の周波数信号のみを表示している。
図19(a)に、選択された周波数信号を示す。図19(a)の表示の方法は、図11と同じであるので説明を省略する。この例では、選択された周波数信号の中にエンジン音A(音色のある音)とエンジン音B(音色のある音)と暗騒音(音色のない音)との周波数信号が含まれている。
図19(b)に、周波数信号の位相のヒストグラムの一例を模式的に示す。エンジン音Aの周波数信号の集まりは類似した位相(この例ではπ/2(ラジアン)の近傍)を持ち、エンジン音Bの周波数信号の集まりは類似した位相(この例ではπ(ラジアン)の近傍)を持つため、ヒストグラムのπ/2(ラジアン)の近傍とπ(ラジアン)の近傍に山が2つできている。また、暗騒音の周波数信号は特定の位相を持たないため、ヒストグラムでは山ができていない。
そこで、位相距離判定部201(j)は、位相距離が第2のしきい値(π/4(ラジアン))以下であり、かつ出現頻度が第1のしきい値(所定の時間幅に含まれる1/fの時間間隔の全ての周波数信号の数の30%)以上である周波数信号を、抽出音の周波数信号2408に判定する。この例では、π/2(ラジアン)の近傍の周波数信号とπ(ラジアン)近傍の周波数信号とが抽出音の周波数信号2408に判定される。このとき、π/2(ラジアン)近傍の周波数信号とπ(ラジアン)近傍の周波数信号との間の位相距離はπ/4(ラジアン)(第4のしきい値)以上になるため、これらの2つの山の周波数信号の集まりは異なる種類の抽出音として判定することができる。すなわち、エンジン音Aとエンジン音Bとを区別して2つの抽出音の周波数信号として判定することができる。
最後に、音抽出部202(j)は、位相距離判定部201(j)が判定した、異なる種類の抽出音の周波数信号を各々取り出すことで雑音を除去することができる(ステップS402(j))。
かかる構成によれば、抽出音判定部は、第1のしきい値以上の数から構成されかつ周波数信号間の位相の類似度が第2のしきい値以下である周波数信号の集まりを複数作成して、周波数信号の集まり同士の位相距離が第4のしきい値以上になる周波数信号の集まり同士を異なる種類の抽出音と判定することで、同じ時間‐周波数領域に複数の種類の抽出音がある場合にそれらを区別して判定することができる。例えば、複数の車両のエンジン音を区別して判定できるため、本実施の形態を車両検知装置に適用した場合には運転者に同じ方向に複数の異なる車両が存在していることを知らせることができて、運転者は安全に運転できる。また、複数の人の音声を区別して判定できるため、本実施の形態を音声抽出装置に適用した場合には複数の人の音声を分離して聞かせることができる。
本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間‐周波数領域ごとに音声の周波数信号を判定して逆周波数変換によりきれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去されたあとの抽出音の周波数信号を抽出して正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに音声の周波数信号を抽出して正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに抽出音の周波数信号を抽出して正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにエンジン音の周波数信号を抽出したときに車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにサイレン音の周波数信号を抽出したときに緊急車両の接近を知らせることができる。
また、本発明で抽出音(音色のある音)に判定されなかった雑音(音色のない音)の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間‐周波数領域ごとに風雑音の周波数信号を抽出してパワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出してパワーの大きさから車両の接近を検知することができる。
なお、周波数分析部として、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。
なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、周波数分析部が求めた周波数信号の中心周波数fと、位相距離を求める分析周波数f´は異なる値を用いてもよい。このとき、中心周波数fの周波数信号の中に周波数f´における周波数信号が存在する場合に、その周波数信号は抽出音の周波数信号に判定される。また、その周波数信号の詳細な周波数はf´である。
なお、実施の形態1の抽出音判定部101(j)(j=1〜M)において、1/f(fは分析周波数)の時間間隔の時刻から、過去と未来の時刻に対して同じ時間区間K(時間幅96ms)の中から周波数信号を選択したが、過去と未来の時刻に対して異なる時間区間の中から周波数信号を選択してもよい。
なお、実施の形態1において、位相距離を求めるときに分析の対象とする時刻の周波数信号を設定して、時刻ごとの周波数信号に対して抽出音の周波数信号であるか否かの判定を行ったが、複数の周波数信号間の位相距離をまとめて求めて第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することができる。この場合は、時間区間の平均的な位相の時間変化を分析することになるため、雑音の位相と抽出音の位相とがたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、時間軸調整部は所定の方向として複数の方向を設定して、各々の方向で抽出音の周波数信号を判定してもよい。
(実施の形態2)
次に、実施の形態2に係る雑音除去装置について説明する。実施の形態2に係る雑音除去装置は、実施の形態1に係る雑音除去装置と異なり、マイクロホン間での位相差により雑音を除去したあとに、位相距離を求めて抽出音の周波数信号を判定して雑音を除去する。また、混合音の時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正し、補正後の周波数信号の位相ψ´(t)を用いて抽出音の周波数信号を判定して雑音を除去する。
次に、実施の形態2に係る雑音除去装置について説明する。実施の形態2に係る雑音除去装置は、実施の形態1に係る雑音除去装置と異なり、マイクロホン間での位相差により雑音を除去したあとに、位相距離を求めて抽出音の周波数信号を判定して雑音を除去する。また、混合音の時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正し、補正後の周波数信号の位相ψ´(t)を用いて抽出音の周波数信号を判定して雑音を除去する。
図20及び図21は、本発明の実施の形態2における雑音除去装置の構成を示すブロック図である。
図20において、雑音除去装置1500は、時間軸調整部103(請求の範囲の時間軸調整部)と、FFT分析部2402(請求の範囲の周波数分析部)と、雑音除去処理部1504において、位相補正部1501(j)(j=1〜M)と、雑音特定部1505(j)(j=1〜M)(請求の範囲の雑音特定部)と、抽出音判定部1502(j)(j=1〜M)(請求の範囲の抽出音判定部)と、音抽出部1503(j)(j=1〜M)(請求の範囲の音抽出部)とを含む。
FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める。以下では、FFT分析部2402から求められた周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
位相補正部1501(j)(j=1〜M)は、FFT分析部2402が求めた周波数帯域jの周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正する処理部である。
雑音特定部1505(j)(j=1〜M)は、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する。この例では、位相補正部1501(j)(j=1〜M)が求めた補正された位相を用いて位相差を求める。
なお、雑音特定部1505(j)(j=1〜M)は、位相補正する前のFFT分析部2402が求めた周波数信号の位相を用いて位相差を求めてもよい。
抽出音判定部1502(j)(j=1〜M)は、時間軸調整部103により調整された時間軸上での所定の時間幅において、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号を用いて、分析の対象とする位相補正された周波数信号と、所定の時間幅に含まれる複数の位相補正された周波数信号(混合音2401(n)(n=1〜N)の周波数信号)との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。このとき位相距離はψ´(t)を用いて計算する。そして、位相距離が第2のしきい値以下である分析の対象とする周波数信号を抽出音の周波数信号2408に判定する。
このとき、抽出音の周波数信号2408が、いずれの混合音2401(n)(n=1〜N)から判定されたのかを特定することもできる。
最後に、音抽出部1503(j)(j=1〜M)は、抽出音判定部1502(j)(j=1〜M)が判定した抽出音の周波数信号2408を取り出すことで混合音から雑音の除去を行う。
これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間‐周波数領域ごとに抽出音の周波数信号2408を取り出すことができる。
図21に、抽出音判定部1502(j)(j=1〜M)の構成を示すブロック図を示す。
抽出音判定部1502(j)(j=1〜M)は、周波数信号選択部1600(j)(j=1〜M)と、位相距離判定部1601(j)(j=1〜M)とから構成される。
周波数信号選択部1600(j)(j=1〜M)は、所定の時間幅において、位相補正部1501(j)(j=1〜M)が位相補正した周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号から、位相距離判定部1601(j)(j=1〜M)が位相距離を計算するのに用いる周波数信号を選択する処理部である。位相距離判定部1601(j)(j=1〜M)は、周波数信号選択部1600(j)(j=1〜M)が選択した周波数信号の補正された位相ψ´(t)を用いて位相距離を計算して、位相距離が第2のしきい値以下になる周波数信号を抽出音の周波数信号2408に判定する処理部である。
次に、以上のように構成された雑音除去装置1500の動作について説明する。
以下では、j番目の周波数帯域について説明を行う。ここでは、周波数帯域の中心周波数と分析周波数(位相距離を求めるψ´(t)=mod2π(ψ(t)−2πft)における周波数fであって、周波数fに抽出音が存在するか否かを判定することになる)とが一致する場合を例にして説明を行う。他の方法として、周波数帯域を含む周辺の複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。ここでの処理は実施の形態1と同じである。
図22及び図23は、雑音除去装置1500の動作手順を示すフローチャートである。
初めに、FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める(ステップS300)。ここでは、実施の形態1と同様に周波数信号を求める。
次に、位相補正部1501(j)は、FFT分析部2402が求めた周波数帯域jの混合音2401(n)(n=1〜N)の周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を変換することで位相補正を行う(ステップS1700(j))。
図24〜図26を用いて、位相補正を行う方法の一例について説明する。図24(a)には、FFT分析部2402が求めた周波数信号が模式的に示されており、図24(b)には、図24(a)から求めた周波数信号の位相が模式的に示されており、図24(c)には、図24(a)から求めた周波数信号の大きさ(パワー)が模式的に示されている。図24(a)、図24(b)及び図24(c)の横軸は時間軸である。図24(a)の表示の方法は図11と同様であるため説明を省略する。図24(a)には、混合音2401(n)(n=1〜M)の周波数信号の一部である混合音2401(n)の周波数信号のみを表示している。図24(b)の縦軸は周波数信号の位相を表しており0〜2π(ラジアン)の間の値で示される。図24(c)の縦軸は周波数信号の大きさ(パワー)を表している。混合音2401(n)(n=1〜N)の周波数信号の位相ψn(t)(n=1〜N)及び大きさ(パワー)Pn(t)(n=1〜N)は、混合音2401(n)(n=1〜N)の周波数信号の実部を
ここで、図24(b)に示されている周波数信号の位相ψn(t)(n=1〜N)をψ´n(t)=mod2π(ψn(t)−2πft)(fは分析周波数)(n=1〜N)の値に変換することで位相補正を行う。
初めに、基準の時刻を決定する。図25(a)は、図24(b)と同じ内容のものであり、この例では、図25(a)の黒丸印の時刻t0を基準の時刻に決定している。
次に、位相を補正する周波数信号の複数の時刻を決定する。この例では、図25(a)の5個の白丸印の時刻(t1、t2、t3、t4、t5)を、位相を補正する周波数信号の時刻に決定している。
ここで、基準の時刻t0における周波数信号の位相を
次に、図26に、時刻t2における周波数信号の位相を補正する方法を示す。図26(a)と図25(a)とは同じ内容のものである。また、図26(b)は、1/f(fは分析周波数)の時間間隔で等角速度で0〜2π(ラジアン)まで規則的に変化する位相を表している。ここで、補正したあとの位相を
位相補正したあとの周波数信号の位相を図25(b)に×印で示す。図25(b)の表示の方法は図25(a)と同様であるため説明を省略する。
次に、雑音特定部1505(j)は、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する(ステップS1703(j))。この例では、位相補正部1501(j)が求めた補正された位相を用いて位相差を求める。
図27には、位相補正部1501(j)が求めた補正された位相の一例が示されている。表示の方法は図25(b)と同じであるため説明を省略する。横軸の時間軸は所定の方向に時間軸が調整されたものである。この例では、時刻t0、時刻t1、時刻t2の混合音2401(n)(n=1〜N)の補正された位相が示されている。ここではN=3として説明を行う。
図27の時刻t0において、混合音2401(1)の位相ψ´1(t0)は、混合音2401(2)の位相ψ´2(t0)または混合音2401(3)の位相ψ´3(t0)との位相差が第3のしきい値未満であるため、混合音2401(1)の位相ψ´1(t0)(又は周波数信号)は抽出音の候補として残る。同様にして、混合音2401(2)の位相ψ´2(t0)(周波数信号)と混合音2401(3)の位相ψ´3(t0)(周波数信号)も抽出音の候補として残る。
図27の時刻t1において、混合音2401(3)の位相ψ´3(t1)は、混合音2401(1)の位相ψ´2(t1)および混合音2401(2)の位相ψ´2(t1)の両方との位相差が第3のしきい値以上であるため、混合音2401(3)の位相ψ´3(t1)(周波数信号)は雑音として特定される。また、混合音2401(1)の位相ψ´1(t1)と混合音2401(2)の位相ψ´2(t1)は、お互いに第3のしきい値未満であるため、混合音2401(1)の位相ψ´1(t1)(周波数信号)と混合音2401(2)の位相ψ´2(t1)(周波数信号)は抽出音の候補として残る。
図27の時刻t2において、混合音2401(1)の位相ψ´1(t2)と混合音2401(2)の位相ψ´2(t2)と混合音2401(3)の位相ψ´1(t2)は、お互いに位相差が第3のしきい値以上であるため、混合音2401(1)の位相ψ´1(t2)(周波数信号)と混合音2401(2)の位相ψ´2(t2)(周波数信号)と混合音2401(3)の位相ψ´3(t2)(周波数信号)は雑音として特定される。
これにより、位相距離を求める前に雑音の周波数信号を除くことができる。
なお、雑音特定部1505(j)(j=1〜M)は、位相補正する前のFFT分析部2402が求めた周波数信号の位相を用いて位相差を求めてもよい。この場合は、図27の位相ψ´(t)を位相ψ(t)に置き換えて、図27に示した方法と同様な方法で処理を行えばよい。
次に、抽出音判定部1502(j)は、時間軸調整部103により調整された時間軸上での所定の時間幅において、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、雑音特定部1505(j)が特定した周波数信号を除いた周波数信号を用いて、分析の対象とする位相補正された周波数信号と、所定の時間幅に含まれる複数の位相補正された周波数信号(混合音2401(n)(n=1〜N)の周波数信号)との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。そして、位相距離が第2のしきい値以下になる分析の対象とする周波数信号を抽出音の周波数信号2408に判定する(ステップS1701(j))。
初めに周波数信号選択部1600(j)は、位相補正部1501(j)が求めた所定の時間幅における位相補正された周波数信号から雑音特定部1505(j)が特定した周波数信号を除いた周波数信号の中から、位相距離判定部1601(j)が位相距離の計算に用いる周波数信号を選択する(ステップS1800(j))。ここでは、所定の時間幅に含まれる雑音特定部1505(j)が特定した周波数信号を除いた周波数信号の時刻を時刻t0〜時刻t5として、分析の対象とする周波数信号を、時刻をt0における混合音2401(n´)の周波数信号とする。このとき、位相距離を求めるときに用いた混合音2401(n)(n=1〜N)の周波数信号の数(t0〜t5の6個×N)は第1のしきい値以上の数から構成されている。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合に、位相の時間変化の規則性を判定することが困難になるからである。ここでの所定の時間幅の時間長は、FFT分析部2402の高速フーリエ変換処理で用いた窓関数の時間窓幅の2〜4倍の長さに設定することが好ましい。
次に、位相距離判定部1601(j)は、周波数信号選択部1600(j)が選択した位相補正後の周波数信号を用いて位相距離を計算する(ステップS1801(j))。この例では、位相距離Sは位相の差分誤差であり、
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。例えば、数26に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、
この例では、周波数信号選択部1600(j)が、位相補正部1501(j)が求めた位相補正された周波数信号から、位相距離判定部1601(j)が位相距離の計算に用いる周波数信号を選択している。他の方法としては、位相補正部1501(j)が位相補正する周波数信号を予め周波数信号選択部1600(j)が選択しておいて、位相距離判定部1601(j)は、位相補正部1501(j)により位相補正された周波数信号をそのまま用いて位相距離を求めるようにしてもよい。この場合は、位相距離を計算するために用いる周波数信号のみを位相補正するため処理量を削減できる。
次に、位相距離判定部1601(j)は、位相距離が第2のしきい値以下である分析の対象とする周波数信号の各々を抽出音の周波数信号2408に判定する(ステップS1802(j))。
最後に、音抽出部1503(j)は、抽出音判定部1502(j)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する。
ここで、雑音として除去される周波数信号の位相について考察を加える。この例では、位相距離を位相の差分誤差とする。また、第2のしきい値をπ(ラジアン)に設定する。
図28は、位相距離を求める所定の時間幅における、混合音の周波数信号の位相補正された位相ψ´(t)を模式的に示した図である。横軸は時間tであり縦軸は位相補正された位相ψ´(t)である。黒丸印は分析の対象とする周波数信号の位相を示す。図28(a)に示すように、位相距離を求めることは、分析の対象とする周波数信号の位相補正された位相を通る、時間軸に対して平行な傾きをもつ直線との位相距離を求めることと同じになる。図28(a)では、この直線の近傍に位相距離を求める周波数信号の位相補正された位相が集まっているため、第1のしきい値以上の数の周波数信号との位相距離は第2のしきい値(π(ラジアン))以下になり抽出音の周波数信号に判定される。また、図28(b)のように、分析の対象とする周波数信号の位相補正された位相を通り、時間軸に平行な傾きをもつ直線の近傍に、位相距離を求める周波数信号がほとんど存在しない場合には、第1のしきい値以上の数の周波数信号との位相距離が第2のしきい値(π(ラジアン))より大きくなるため、抽出音の周波数信号として判定されることはなく雑音として除去される。
図29は、混合音の位相を模式的に示した別の例である。横軸は時間軸であり縦軸は位相である。丸印で位相補正された混合音の周波数信号の位相が示されている。実線で囲まれた周波数信号同士は同じクラスタに属しており位相距離が第2のしきい値(π(ラジアン))以下になる周波数信号の集まりである。これらのクラスタは多変量解析を用いても求めることができる。同一のクラスタの中に第1のしきい値以上の数の周波数信号が存在するクラスタの周波数信号は除去されずに抽出され、第1のしきい値より少ない数の周波数信号しか存在しないクラスタの周波数信号は雑音として除去される。図29(a)に示すように、所定の時間幅に一部分だけ雑音部分が含まれる場合に、その一部分の雑音のみを除去することができる。また、図29(b)に示すように、2種類の抽出音が存在する場合にも、所定の時間幅に対して40%以上(ここでは、7個以上)の周波数信号間での位相距離が第2のしきい値(π(ラジアン))以下になる周波数信号を抽出することで2つの抽出音を抽出することができる。このとき、これらのクラスタ間の位相距離はπ(ラジアン)(第4のしきい値)以上であるため、異なる種類の抽出音として判定することもできる。
かかる構成によれば、マイクロホン間での混合音の位相差が第3のしきい値以上である雑音の周波数信号を除いてから抽出音の周波数信号を判定するため、第1のしきい値の判定を正確に行うことができて正確に抽出音の判定を行うことができる。例えば、風雑音のようにマイクロホンごとに独立に発生する雑音は、マイクロホン間で位相が異なるため第3のしきい値を用いることで取り除くことができる。また、所定の方向以外の方向に存在する音に対しても、所定の方向に時間軸が調整されたあとのマイクロホン間で位相差は大きくなるため第3のしきい値を用いることで取り除くことができる。
また、他の全ての前記混合音との周波数信号の位相差が第3のしきい値以上である前記混合音の周波数信号を取り除くことで、抽出音の可能性が残る周波数信号を取り除くことなく抽出音の周波数信号を判定することができる。これは、例えば、全てのマイクロホンで位相差が類似する周波数信号以外を全て取り除いてしまうと、いずれか1つのマイクロホンに風雑音のようにマイクロホンごとに独立に発生する雑音が入力された場合に、他のマイクロホンに抽出音が入力されていても全て除去されてしまうからである。
また、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号においてψ´(t)=mod2π(ψ(t)−2πft)の補正を行うことで、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号で、位相距離をψ´(t)を用いた簡単な計算で求めることができる。このため、1/fの時間間隔が大きくなる低い周波数帯域における抽出音においても、短い時間領域ごとにψ´(t)を用いた簡単な計算で判定することができる。
本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間‐周波数領域ごとに音声の周波数信号を判定して逆周波数変換によりきれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去されたあとの抽出音の周波数信号を抽出して正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに音声の周波数信号を抽出して正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに抽出音の周波数信号を抽出して正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにエンジン音の周波数信号を抽出したときに車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにサイレン音の周波数信号を抽出したときに緊急車両の接近を知らせることができる。
また、本発明で抽出音(音色のある音)に判定されなかった雑音(音色のない音)の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間‐周波数領域ごとに風雑音の周波数信号を抽出してパワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出してパワーの大きさから車両の接近を検知することができる。
なお、周波数分析部として、離散フーリエ変換、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。
なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、雑音除去装置1500はFFT分析部2402が求めた全て(M個)の周波数帯域に対して雑音の除去を行ったが、雑音を除去したい一部の周波数帯域を選択してから選択した周波数帯域において雑音の除去を行ってもよい。
なお、分析の対象とする周波数信号を定めずに、複数の周波数信号間の位相距離を求めて、第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することもできる。この場合は、時間区間の平均的な位相の時間変化を分析することになるため、雑音の位相が抽出音の位相とたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、位相補正後の位相を用いて、実施の形態1の変形例と同様にして、ヒストグラムを用いて抽出音の周波数信号を判定してもよい。この場合は、図30のようなヒストグラムになる。表示の方法は図18と同じなので説明を省略する。位相補正を行っているためヒストグラムのΔψ´の領域が時間軸に平行になり出現頻度を求めやすくなる。
なお、位相補正後の位相ψ´(t)を用いて、
なお、時間軸調整部は所定の方向として複数の方向を設定して、各々の方向で抽出音の周波数信号を判定してもよい。
(実施の形態3)
次に、実施の形態3に係る車両検知装置について説明する。実施の形態3に係る車両検知装置は、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。実施の形態1と実施の形態2と異なる部分は、時間軸調部が所定の方向として複数の方向を設定して、各々の方向に対して抽出音の判定を行うことである。ここでは、位相距離を求める際に、時間‐周波数領域ごとの混合音に適切な分析周波数を事前に求めてから、求めた分析周波数に対して位相距離を求めてエンジン音の周波数信号を判定する方法について説明する。
次に、実施の形態3に係る車両検知装置について説明する。実施の形態3に係る車両検知装置は、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。実施の形態1と実施の形態2と異なる部分は、時間軸調部が所定の方向として複数の方向を設定して、各々の方向に対して抽出音の判定を行うことである。ここでは、位相距離を求める際に、時間‐周波数領域ごとの混合音に適切な分析周波数を事前に求めてから、求めた分析周波数に対して位相距離を求めてエンジン音の周波数信号を判定する方法について説明する。
図31及び図32は、本発明の実施の形態3における車両検知装置の構成を示すブロック図である。
図31において、車両検知装置4100は、マイクロホン4107(1)と、マイクロホン4107(2)と、時間軸調整部103(請求の範囲の時間軸調整部)と、DFT分析部1100(請求の範囲の周波数分析部)と、車両検知処理部4101において、雑音特定部1505(j)(j=1〜M)(請求の範囲の雑音特定部)と、位相補正部4102(j)(j=1〜M)と、抽出音判定部4103(j)(j=1〜M)(請求の範囲の抽出音判定部)と、音検知部4104(j)(j=1〜M)(請求の範囲の音検知部)と、提示部4106とを含む。
また、図32において、抽出音判定部4103(j)(j=1〜M)は、位相距離判定部4200(j)(j=1〜M)から構成される。
マイクロホン4107(1)は混合音2401(1)を入力して、マイクロホン4107(2)は混合音2401(2)を入力する。この例では、マイクロホン4107(1)とマイクロホン4107(1)はそれぞれ自車両の左前と右前のバンパーに設置されている。これらの混合音の各々はバイクのエンジン音と風雑音とから構成されている。
DFT分析部1100は、混合音2401(n)(n=1、2)を受付けて、離散フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1、2)の周波数信号を時刻ごとに求める処理部である。ここでは、所定の方向として複数の方向を設定する。以下では、DFT分析部1100から求められた周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。この例では、バイクのエンジン音が存在する10Hz〜150Hzの周波数帯域を5Hz間隔ごとに分割して(M=30)周波数信号を求める。
雑音特定部1505(j)(j=1〜M)は、DFT分析部1100が求めた混合音2401(n)(n=1、2)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する。この例では、DFT分析部1100が求めた位相を用いて位相差を求める。この処理は、時間軸調整部103により所定の方向として設定された方向ごとに時間軸を調整して行う。
なお、雑音特定部1505(j)(j=1〜M)は、実施の形態2のように、位相補正部4102(j)(j=1〜M)により補正されたあとの位相を用いて位相差を求めてもよい。
位相補正部4102(j)(j=1〜M)は、時間軸調整部103により所定の方向として設定された方向ごとに、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を補正する処理部である。この例で実施の形態2と異なる部分は、ψ(t)を分析周波数で補正するのではなく、周波数信号を求めた周波数帯域の周波数f´で補正を行うところである。
抽出音判定部4103(j)(j=1〜M)(位相距離判定部4200(j)(j=1〜M))は、時間軸調整部103により所定の方向として設定された方向ごとに、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、時間軸調整部103により調整された時間軸上での所定の時間幅における時刻の、混合音2401(n)(n=1、2)の周波数信号を用いて、この周波数信号に適切な分析周波数を求めてから位相距離を求めて、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する処理部である。
次に、音検知部4104(j)(j=1〜M)は、抽出音判定部4103(j)(j=1〜M)により、時間軸調整部103により所定の方向として設定されたいずれかの方向の中でいずれかの周波数帯域において、混合音2401(n)(n=1、2)からエンジン音(抽出音)の周波数信号が存在すると判定されたときに、抽出音検知フラグ4105を作成して出力する。
最後に、提示部4106は、音検知部4104(j)(j=1〜M)から抽出音検知フラグ4105が入力されたときに、運転者に接近車両の存在を知らせる。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
次に、以上のように構成された車両検知装置4100の動作について説明する。
以下では、j番目の周波数帯域(周波数帯域の周波数はf´)について説明を行う。
図33は、車両検知装置4100の動作手順を示すフローチャートである。
初めに、DFT分析部1100は、混合音2401(n)(n=1、2)を受付けて、離散フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1、2)の周波数信号を時刻ごとに求める。ここでは、所定の方向として複数の方向を設定する(ステップS4300)。この例では、離散フーリエ変換の窓関数幅を25msに設定してある。
図34に、混合音2401(1)と混合音2401(2)のスペクトログラムの一例を示す。横軸は時間軸であり縦軸は周波数軸である。色の濃度は周波数信号のパワーの大きさを表しており、濃い色は周波数信号のパワーが大きいことを示している。ここでの表示には、周波数信号の位相成分の表示は省略されている。図34(a)と図34(b)はそれぞれ混合音2401(1)と混合音2401(2)のスペクトログラムであり、バイクのエンジン音と風雑音とから構成されている。図34(a)と図34(b)の領域Bを見ると、両方の混合音にエンジン音の周波数信号があらわれている。一方、図34(a)と図34(b)の領域Aを見ると、混合音2401(1)にはエンジン音があらわれているが、混合音2401(2)には風雑音の影響でエンジン音がうもれてしまっている。このようにマイクロホン間で混合音の状態が異なるのは、風雑音がマイクロホンの配置に依存して変化する雑音だからである。
次に、雑音特定部1505(j)は、DFT分析部1100が求めた混合音2401(n)(n=1、2)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する(ステップS4301(j))。この例では、DFT分析部1100が求めた位相を用いて位相差を求める。この処理は、時間軸調整部103により所定の方向として設定された方向ごとに時間軸を調整して行う。この例では、第3のしきい値を0.51(ラジアン)に設定している。この処理は、実施の形態2に記載した方法と同様にして行う。
次に、位相補正部4102(j)(j=1〜M)は、時間軸調整部103により所定の方向として設定された方向ごとに、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を変換することで位相補正を行う(ステップS4302(j))。この例で実施の形態2と異なる部分は、ψ(t)を分析周波数fで補正するのではなく、周波数信号を求めた周波数帯域の周波数f´で補正を行うところである。それ以外の条件は実施の形態2と同様であるため説明を省略する。
次に、抽出音判定部4103(j)(位相距離判定部4200(j))は、時間軸調整部103により所定の方向として設定された方向ごとに、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、時間軸調整部103により調整された時間軸上での所定の時間幅における全ての時刻の、混合音2401(n)(n=1、2)の周波数信号(第1のしきい値は、所定の時間幅における時刻の周波数信号の50%の数であり、第1のしきい値以上の数から構成されている)を用いて、分析周波数fを設定して、設定された分析周波数fを用いて位相距離を求める。そして、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する(ステップS4303(j))。
図34(a)および図34(b)における、時間軸調整部103により調整された時間軸上での時刻3.6秒の所定の時間幅(時間長は75msに設定してある)の周波数100Hzの周波数帯域の時間‐周波数領域において適切な分析周波数fを設定する方法について説明する。
図35に、図34の混合音の、時間軸調整部103により調整された時間軸上での時刻3.6秒の所定の時間幅(75ms)の周波数100Hzの周波数帯域の時間‐周波数領域における、周波数帯域の周波数f´で補正された位相ψ´´n(t)(n=1、2)が示されている。横軸は時間軸であり縦軸は位相ψ´´(t)(ψ´´1(t)、ψ´´2(t))である。この例では、周波数帯域の周波数(f´=100Hz)で位相が補正されており、ψ´´n(t)=mod2π(ψn(t)−2π×100×t)(n=1、2)である。また、これらの補正された位相ψ´´n(t)(n=1、2)と、時刻と位相ψ´´(t)の空間で定義される直線との距離(位相距離に対応する)が最小になる直線(直線A)が示されている。
この直線は、線形回帰分析により求めることができる。具体的には、時刻t(i)(i(i=1〜K)はtを離散化したときのインデックス)を説明変数として、補正された位相ψ´´(t(i))を目的変数にする。そして、時刻3.6秒の所定の時間幅(75ms)の周波数100Hzの周波数帯域の時間‐周波数領域における、時刻ごとの補正された位相ψ´´n(t(i))(n=1、2)(i=1〜K)を2K個のデータとして、
ここで、図36を用いて、図35の直線Aの傾きから分析周波数fを求めることができることを説明する。ここでは、直線Aは、1/f´´の時間間隔でψ´´(t)が0〜2π(ラジアン)増加する傾きをもつ直線とする。すなわち、直線Aの傾きを2πf´´とする。
図36の直線Aは、図35の直線Aと同じである。図36の横軸は時間軸であり縦軸は位相である。図36の、時間とψ(t)とで定義される直線Bは、直線Aが周波数f´(周波数帯域の周波数)で位相補正される前の時間とψ(t)とで定義される直線である。すなわち、直線Bは、直線Aに対して時刻が1/f´進むごとに2π(ラジアン)を足し算したものである。この直線Bは、この時間‐周波数領域に抽出音が存在した場合の抽出音の位相ψ(t)とみなすことができて、1/fの時間間隔(fは分析周波数)で等角速度で0〜2π(ラジアン)まで変化する。この直線Bの傾き(2πf)に対応する周波数fが求めたい分析周波数fである。
この例では、分析周波数fよりも周波数帯域の周波数f´の値が小さかったため、直線Aは正の傾きをもっている。なお、分析周波数fと周波数帯域の周波数f´の値とが一致する場合には直線Aの傾きはゼロになり、分析周波数fよりも周波数帯域の周波数f´の値が大きい場合には直線Aの負の傾きをもつことになる。
図36における直線Aと直線Bとの関係から、
図35の直線Aは、補正された位相ψ´´(t)が0〜2π(ラジアン)増加するまでの時間は0.075/0.5(=1/f´´)(秒)であるため、f´´=6.7(Hz)となり、分析周波数fは106.7Hz(100Hz+6.7Hz)になる。
次に、設定された分析周波数fを用いて位相距離(ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での距離)を求める。位相距離は、図35に示された補正された位相ψ´´(t)と直線Aとの距離で求めることができる。このことは、
この例では、位相距離を、所定の時間幅における全ての時刻の位相補正された周波数信号の位相ψ´´(t)と直線Aとの差分誤差で求める。
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。
ここで他の見方をすると、直線Aは位相距離が最小になるように求められているため、直線Aの傾きに対応する周波数f´´から求められる分析周波数fは、位相距離を最小にするものになり、この時間‐周波数領域において適した分析周波数fであったことがわかる。
次に、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する。この例では、第2のしきい値を0.34(ラジアン)に設定している。また、この例では、所定の時間幅における周波数信号全体で1つの位相距離を求めて、時間区間ごとに抽出音の周波数信号の判定をまとめて行っている。
図37に、時間軸調整部103が設定した複数の方向で、エンジン音の周波数信号を判定した結果の一例を示す。この結果は、図34に示す混合音からエンジン音の周波数信号を判定した結果であり、時間軸調整部103が設定した複数の方向のいずれかの方向でエンジン音の周波数信号であると判定された時間‐周波数領域を黒い領域で表示している。横軸は時間軸であり縦軸は周波数である。図34の領域Aと領域Bと、図37の領域Aと領域Bは対応している。これより、図37の領域Aを見ると、混合音2401(n)(n=1、2)の両方の周波数信号を合わせることで、混合音からエンジン音の周波数信号を精度よく判定できていることがわかる。
これらの処理を、全ての周波数帯域j(j=1〜M)に対して行う。
次に、音検知部4104(j)は、抽出音判定部4103(j)により少なくとも1つの周波数帯域に、エンジン音の周波数信号が存在すると判定された時刻に、抽出音検知フラグ4105を作成して出力する(ステップS4304(j))。この例では、バイクのエンジン音が存在する10Hz〜150Hzの周波数帯域における判定結果の全体を用いて、位相距離を求めた時間単位である所定の時間幅(75ms)ごとに抽出音検知フラグ4105を作成して出力するか否かを決定する。
他の抽出音検知フラグ4105の作成方法としては、位相距離を求めた時間単位である所定の時間幅とは独立に設定された時刻ごとに、抽出音検知フラグ4105を作成して出力するか否かを決定する方法がある。例えば、所定の時間幅よりも長い時刻(例えば1秒)ごとに抽出音検知フラグ4105を作成して出力するか否かを決定した場合は、瞬時的に雑音の影響によりエンジン音の周波数信号を検出できなかった時刻が存在しても、安定して抽出音検知フラグ4105を作成して出力することができる。これにより、車両検知を正確に行うことができる。
最後に、提示部4106は、抽出音検知フラグ4105が入力されたときに、運転者に接近車両の存在を知らせる(ステップS4305)。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
かかる構成によれば、マイクロホン間での混合音の位相差が第3のしきい値以上である雑音の周波数信号を除いてから抽出音の周波数信号を判定するため、第1のしきい値の判定を正確に行うことができて正確に抽出音の判定を行うことができる。例えば、風雑音のようにマイクロホンごとに独立に発生する雑音は、マイクロホン間で位相が異なるため第3のしきい値を用いることで取り除くことができる。また、所定の方向以外の方向に存在する音に対しても、所定の方向に時間軸が調整されたあとのマイクロホン間で位相差は大きくなるため第3のしきい値を用いることで取り除くことができる。
また、他の全ての前記混合音との周波数信号の位相差が第3のしきい値以上である前記混合音の周波数信号を取り除くことで、抽出音の可能性が残る周波数信号を取り除くことなく抽出音の周波数信号を判定することができる。これは、例えば、全てのマイクロホンで位相差が類似する周波数信号以外を全て取り除いてしまうと、いずれか1つのマイクロホンに風雑音のようにマイクロホンごとに独立に発生する雑音が入力された場合に、他のマイクロホンに抽出音が入力されていても全て除去されてしまうからである。
また、時間‐周波数領域ごとに、抽出音を判定するのに適切な分析周波数を事前に求めることができるため、多くの数の分析周波数に対して位相距離を求めてから抽出音を判定する必要がなくなる。このため、位相距離を求める処理量が大幅に削減できる。
また、分析周波数が詳細に求めるため、混合音から抽出音の周波数信号が判定されたときに抽出音の詳細な周波数を求めることができる。
また、雑音の影響で、1つのマイクロホンで集音した混合音からは抽出音が検出できなくても、他のマイクロホンで抽出音を検出できる可能性が広がるため、検知ミスを少なくすることができる。この例では、マイクロホンの位置に依存する風雑音の影響が少ないマイクロホンで集音した混合音を利用できるため、抽出音としてのエンジン音を正確に検出して、運転者に車両の接近を知らせることができる。また、この例では2本のマイクロホンを用いたが、3本以上のマイクロホンを用いて抽出音を判定してもよい。
また、複数の周波数信号間の位相距離をまとめて求めて、第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定するため、雑音の位相が抽出音の位相とがたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、実施の形態3に係る車両検知装置において、実施の形態1または実施の形態2における抽出音判定部を用いてもよい。
なお、実施の形態1のように、雑音特定部を用いることなく車両検知を行ってもよい。
(実施の形態3の変形例)
次に、実施の形態3に示した車両検知装置の変形例について説明する。ここでは、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音の方向を出力して運転者に接近車両の方向を知らせるものである。実施の形態3と異なる部分は、音検知部4104(j)(j=1〜M)が方向検知部5501(j)(j=1〜M)に入れ替わっていることである。
次に、実施の形態3に示した車両検知装置の変形例について説明する。ここでは、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音の方向を出力して運転者に接近車両の方向を知らせるものである。実施の形態3と異なる部分は、音検知部4104(j)(j=1〜M)が方向検知部5501(j)(j=1〜M)に入れ替わっていることである。
図38は、本発明の実施の形態3の変形例における車両検知装置の構成を示すブロック図である。
図38において、車両検知装置5500は、マイクロホン4107(1)と、マイクロホン4107(2)と、時間軸調整部103(請求の範囲の時間軸調整部)と、DFT分析部1100(請求の範囲の周波数分析部)と、車両検知処理部4101において、雑音特定部1505(j)(j=1〜M)(請求の範囲の雑音特定部)と、位相補正部4102(j)(j=1〜M)と、抽出音判定部4103(j)(j=1〜M)(請求の範囲の抽出音判定部)と、方向検知部5501(j)(j=1〜M)(請求の範囲の方向検知部)と、提示部4106とを含む。
方向検知部5501(j)(j=1〜M)は、抽出音判定部4103(j)(j=1〜M)において抽出音の周波数信号が判定された所定の方向のうち、位相距離が最小になる方向を抽出音の方向5502として提示部4106へ出力する。
次に、以上のように構成された車両検知装置5500の動作について説明する。以下では、j番目の周波数帯域(周波数帯域の周波数はf´)について説明を行う。
図39は、車両検知装置5500の動作手順を示すフローチャートである。
初めに、DFT分析部1100は、混合音2401(n)(n=1、2)を受付けて、離散フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1、2)の周波数信号を時刻ごとに求める。ここでは、所定の方向として複数の方向を設定する(ステップS4300)。この処理は実施の形態3と同様にして行う。
次に、雑音特定部1505(j)は、DFT分析部1100が求めた混合音2401(n)(n=1、2)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する(ステップS4301(j))。この処理は実施の形態3と同様にして行う。
次に、位相補正部4102(j)(j=1〜M)は、時間軸調整部103により所定の方向として設定された方向ごとに、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を変換することで位相補正を行う(ステップS4302(j))。この処理は実施の形態3と同様にして行う。
次に、抽出音判定部4103(j)(位相距離判定部4200(j))は、時間軸調整部103により所定の方向として設定された方向ごとに、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、時間軸調整部103により調整された時間軸上での所定の時間幅における全ての時刻の、混合音2401(n)(n=1、2)の周波数信号(第1のしきい値は、所定の時間幅における時刻の周波数信号の50%の数であり、第1のしきい値以上の数から構成されている)を用いて、分析周波数fを設定して、設定された分析周波数fを用いて位相距離を求める。そして、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する(ステップS4303(j))。この処理は実施の形態3と同様にして行う。
次に、方向検知部5501(j)は、抽出音判定部4103(j)において抽出音の周波数信号が判定された所定の方向のうち、位相距離が最小になる方向を抽出音の方向5502として提示部4106へ出力する(ステップS5600(j))。
ここでは、初めに、時間軸調整部103により所定の方向として設定された複数の方向のうち、抽出音の周波数信号が存在すると判定された方向を特定する。ここで、いずれの方向に対しても抽出音の周波数信号が存在しないと判定された場合は、抽出音が存在しないため抽出音の方向5502を出力しない。また、1つの方向に対してのみ抽出音の周波数信号が存在すると判定された場合は、この方向を抽出音の方向5502として出力する。また、複数の方向に対して抽出音の周波数信号が存在すると判定された場合は、これらの方向の中で、抽出音の周波数信号を判定したときの位相距離が最小になる方向を抽出音の方向5502として出力する。
なお、複数の方向に対して抽出音の周波数信号が存在すると判定された場合に、判定された全ての方向を抽出音の方向5502として出力してもよい。この場合には、複数の方向に存在する抽出音の各々の音源方向を出力することができる。特に、異なる種類の抽出音(例えば、Aさんの音声とBさんの音声)が異なる方向から入力された場合でも各々の抽出音の音源方向を出力することができる。
最後に、提示部4106は、抽出音の方向5502が入力されたときに、運転者に接近車両の方向として抽出音の方向5502を知らせる(ステップS5601)。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
図40に、接近車両の方向を検知した実験結果の一例を示す。実験の条件は実施の形態3と同じであり、混合音として、図34に示した混合音2401(1)と混合音2401(2)とを用いている。この結果は、図37に示した車両検知結果における車両の音源方向に対応する。
図40(a)は、図34(a)と同じものである。図40(b)、図40(c)、図40(d)は、各時間区間での10Hz〜150Hzで検知された方向(抽出音の方向5502)の頻度分布を示す。横軸は方向を示している。図40(b)は、0.0秒〜4.5秒の時間区間での方向の頻度分布を示しており、図40(c)は、4.5秒〜8.0秒の時間区間での方向の頻度分布を示しており、図40(d)は、8.0秒〜11.0秒の時間区間での方向の頻度分布を示している。図40(b)、図40(c)、図40(d)より、接近車両が左側から接近(図40(b)を参照)して、前方を通過(図40(c)を参照)して、右側に通過(図40(d)を参照)したことを運転者に知らせることができることがわかる。例えば、方向の頻度分布の重心の方向を運転者に提示してもよい。
かかる構成によれば、位相距離が最小になる方向を抽出音の音源方向として出力するため、1つの方向から抽出音が入力された場合に抽出音の正確な音源方向を出力することができる。
次に、複数のマイクロホンの配置の一例について説明する。以下の説明では、車両に複数のマイクロホンを取り付ける場合について説明する。
図41は、複数のマイクロホンの第1の配置例を示す図である。図41は、模式的に示した自車両を上面図である。
図41に示すように、自車両403の前方バンパーに2個のマイクロホン401と、後方バンパーに2個のマイクロホン402とが取り付けられている。検出車両は自車両403の前方に存在する場合を考える。また自車両403は前進している。
自車両403は前進しているため、マイクロホン401には風雑音が入りやすく、マイクロホン402には風雑音は入りにくい。また、検出車両の車両音は、マイクロホン401に対しては空気中を直接到達するため到達時間差の関係から方向を検知しやすく、マイクロホン402に対しては自車両403のボディの影響により到達時間差だけでは方向を検知したときに誤差を生じる。
このため、マイクロホン401だけでは検出車両のエンジン音を抽出する精度が悪くなり、マイクロホン402だけでは検出車両の方向検知の精度が悪くなり、マイクロホン401とマイクロホン402とを合わせて用いる必要がでてくる。
風雑音の影響が少ないマイクロホン402により集音された検出車両のエンジン音の位相を用いることで、マイクロホン401では部分的にしか検出できない検出車両のエンジン音を抽出することができる。また、検出車両のエンジン音が抽出できたときに方向検知の精度が高いマイクロホン401を用いることで、検出車両の方向を正確に求めることができる。
図42および図43は、複数のマイクロホンの第2の配置例を示す図である。図42は、模式的に示した自車両の上面図であり、図43は、模式的に示した自車両の側面図である。
図42および図43に示すように、自車両403の前方バンパーに2個のマイクロホン401と、タイヤが装着されている箇所(例えば泥除けの近く)に2個のマイクロホン404とが取り付けられている。検出車両は自車両403の前方に存在する場合を考える。また自車両403は前進している。
自車両403は前進しているため、マイクロホン401には風雑音が入りやすく、マイクロホン404には車体の陰に取り付けられているため風雑音は入りにくい。また、検出車両の車両音は、マイクロホン401に対しては空気中を直接到達するため到達時間差の関係から方向を検知しやすく、マイクロホン404に対しては自車両403のボディの影響により到達時間差だけでは方向を検知したときに誤差を生じる。
このため、マイクロホン401だけでは検出車両のエンジン音を抽出する精度が悪くなり、マイクロホン404だけでは検出車両の方向検知の精度が悪くなり、マイクロホン401とマイクロホン404とを合わせて用いる必要がでてくる。
風雑音の影響が少ないマイクロホン404により集音された検出車両のエンジン音の位相を用いることで、マイクロホン401では部分的にしか検出できない検出車両のエンジン音を抽出することができる。また、検出車両のエンジン音が抽出できたときに方向検知の精度が高いマイクロホン401を用いることで、検出車両の方向を正確に求めることができる。
図44および図45は、複数のマイクロホンの第3の配置例を示す図である。図44は、模式的に示した自車両の上面図であり、図45は、模式的に示した自車両の側面図である。
図44および図45に示すように、自車両403の前方バンパーに2個のマイクロホン401と、自車両403の天井に2個のマイクロホン405とが取り付けられている。検出車両は自車両の前方に存在する場合を考える。また自車両は前進している。
マイクロホン401には自車両のエンジン音が入りやすく、マイクロホン405にはエンジンルームから距離が離れているため自車両のエンジン音は入りにくい。一方、マイクロホン405はマイクロホン401と比べて風雑音が入りにくい。このとき、自車両のエンジン音と風雑音は異なる雑音であるため雑音が加わるタイミングは異なる。
風雑音の影響が少ないマイクロホン401と自車両のエンジン音の影響が少ないマイクロホン405とを合わせて位相判定することで、検出車両のエンジン音を正確に抽出することができる。これにより、検出車両の方向も正確に検知することができる。
上記実施の形態に示した雑音除去装置および車両検知装置は、コンピュータを構成するCPU上で、上記各装置を構成する各処理部の機能を果たすプログラムを実行することにより実現してもよい。その際、各処理部で処理されるデータは、コンピュータを構成するメモリやハードディスクに記憶される。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
本発明に係る音判定装置等は、時間‐周波数領域で混合音に含まれる抽出音の周波数信号を判定することができる。特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定することができる。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定する音判定装置を提供することを目的とする。
このため、本発明は、時間‐周波数領域ごとに判定された音声の周波数信号を入力して逆周波数変換により抽出音を出力する音声出力装置や、2以上のマイクロホンから入力された混合音の各々に対して、時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して抽出音の音源方向を出力する音源方向検知装置や、時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して音声認識や音識別を行う音識別装置や、時間‐周波数領域ごとに判定された風雑音の周波数信号を入力してパワーの大きさを出力する風音レベル判定装置や、時間‐周波数領域ごとに判定されたタイヤ摩擦による走行音の周波数信号を入力してパワーの大きさから車両を検知する車両検知装置や、時間‐周波数領域ごとに判定されたエンジン音を検知して車両の接近を知らせる車両検知装置や、時間‐周波数領域ごとに判定されたサイレン音の周波数信号を検知して緊急車両の接近を知らせる緊急車両検知装置等に適用できる。
100、1500 雑音除去装置
101、1504 雑音除去処理部
101(j)(j=1〜M)、1502(j)(j=1〜M)、4103(j)(j=1〜M) 抽出音判定部
103 時間軸調整部
200(j)(j=1〜M)、1600(j)(j=1〜M) 周波数信号選択部
201(j)(j=1〜M)、1601(j)(j=1〜M)、4200(j)(j=1〜M) 位相距離判定部
202(j)(j=1〜M)、1503(j)(j=1〜M) 音抽出部
1100 DFT分析部
1501(j)(j=1〜M)、4102(j)(j=1〜M) 位相補正部
1505(j)(j=1〜M) 雑音特定部
2401(n)(n=1〜N) 混合音
2402 FFT分析部
2408 抽出音の周波数信号
2501 認識部
2502 ピッチ抽出部
2503 判定部
2504 周期範囲記憶部
4100、5500 車両検知装置
4101 車両検知処理部
4104(j)(j=1〜M) 音検知部
4105 抽出音検知フラグ
4106 提示部
4107(n)(n=1〜N) マイクロホン
5100 音声入力部
5101 音声受付部
5102 信号変換部
5103 位相差分算出部
5104 確率値特定部
5105 抑制関数算出部
5106 振幅算出部
5107 信号補正部
5108 信号復元部
101、1504 雑音除去処理部
101(j)(j=1〜M)、1502(j)(j=1〜M)、4103(j)(j=1〜M) 抽出音判定部
103 時間軸調整部
200(j)(j=1〜M)、1600(j)(j=1〜M) 周波数信号選択部
201(j)(j=1〜M)、1601(j)(j=1〜M)、4200(j)(j=1〜M) 位相距離判定部
202(j)(j=1〜M)、1503(j)(j=1〜M) 音抽出部
1100 DFT分析部
1501(j)(j=1〜M)、4102(j)(j=1〜M) 位相補正部
1505(j)(j=1〜M) 雑音特定部
2401(n)(n=1〜N) 混合音
2402 FFT分析部
2408 抽出音の周波数信号
2501 認識部
2502 ピッチ抽出部
2503 判定部
2504 周期範囲記憶部
4100、5500 車両検知装置
4101 車両検知処理部
4104(j)(j=1〜M) 音検知部
4105 抽出音検知フラグ
4106 提示部
4107(n)(n=1〜N) マイクロホン
5100 音声入力部
5101 音声受付部
5102 信号変換部
5103 位相差分算出部
5104 確率値特定部
5105 抑制関数算出部
5106 振幅算出部
5107 信号補正部
5108 信号復元部
本発明は、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定する音判定装置等に関し、特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定する音判定装置等に関する。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定する音判定装置に関する。
第1の従来技術では、入力音声信号(混合音)からピッチ周期の抽出を行い、ピッチ周期が抽出されない場合には雑音であると判定するものがあった(例えば、特許文献1参照)。第1の従来技術では、音声候補と判定された入力音声から音声を認識していた。
図1は、特許文献1に記載された第1の従来技術の構成を示すブロック図である。
この従来技術は、認識部2501と、ピッチ抽出部2502と、判定部2503と、周期範囲記憶部2504とを備える。
認識部2501は、入力音声信号(混合音)から音声部分(抽出音)と推定される信号区間の音声認識候補を出力する処理部である。ピッチ抽出部2502は、入力音声信号からピッチ周期を抽出する処理部である。判定部2503は、認識部2501で出力された信号区間に対する音声認識候補とピッチ抽出部2502で抽出された該区間の信号のピッチ抽出結果とから音声認識結果を出力する処理部である。周期範囲記憶部2504は、ピッチ抽出部2502によって抽出されるピッチ周期に対する周期範囲を記憶している記憶装置である。この従来技術では、ピッチ周期が予め設定されたピッチ周期に対する設定周期範囲内であれば、該認識処理区間の信号は音声候補であると判定し、ピッチ周期に対する周期の範囲外であれば雑音であると判定していた。
第2の従来技術では、第1〜第3の判定手段での判定結果に基づいて、人の声の入力の有無を最終的に判定している(例えば、特許文献2)。第1の判定手段では、入力信号(混合音)から調波構造をもつ信号成分を検出した場合に、人の声(抽出音)が入力されたと判定する。第2の判定手段では、入力信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する。第3の判定手段では、ノイズレベル記憶手段に記憶された雑音レベルに対する入力信号のパワー比が所定のしきい値を超えた場合に、人の声が入力されたと判定する。
第3の従来技術では、複数方向に存在する音源からの音入力を受付けて、同じ周波数ごとに算出された位相成分の差分に基づいて、所定の方向に音源が存在する確率値を求める。また、この確率値に基づいて、所定の方向の音源以外の音源からの音入力を抑圧している(例えば、特許文献3)。
図2は、特許文献3に記載された第3の従来技術の構成を示すブロック図である。
この従来技術に係る指向性集音装置は、音声入力部5100と、音声受付部5101と、信号変換部5102と、位相差分算出部5103と、確率値特定部5104と、抑制関数算出部5105と、振幅算出部5106と、信号補正部5107と、信号復元部5108とを備える。
音声受付部5101は、音源が複数混在する音入力を2本のマイクロホン(音声入力部5100)から受付ける。信号変換部5102は、入力された音声についてスペクトルIN1(f)、IN2(f)に変換する。ここでfは周波数を示している。位相差分算出部5103は、スペクトルIN1(f)、IN2(f)に基づいて位相スペクトルを算出して、位相スペクトル間の差分を周波数ごとに算出する。確率値特定部5104は、集音対象となる音声を発する音源が存在する方向に高い確率値を設定するように確率値を特定する。抑制関数算出部5105は、位相スペクトルの差分及び確率値に基づいて抑制関数gain(f)を周波数ごとに算出する。振幅算出部5106は、入力信号のスペクトルの振幅スペクトル|IN1(f)|の代表値を算出する。信号補正部5107は、振幅算出部5106で算出された振幅スペクトル|IN1(f)|に抑制関数算出部5105で算出された抑制関数gain(f)を乗算する。信号復元部5108は、信号補正部5107からの出力信号を時間軸上の信号に変換して出力する。
第4の従来技術では、オーディオ信号において、位相がランダムに変化する部分は雑音により支配されていると判断することにより、効率的にオーディオ信号の符号化を行う(例えば、特許文献4)。
しかしながら、第1の従来技術の構成では、ピッチ周期は時間区間ごとに抽出されるため、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができなかった。また、エンジン音(エンジンの回転数に応じてピッチ周期が変化する音)などのようにピッチ周期が変化する音を判定することはできなかった。
また、第2の従来技術の構成では、調波構造や周波数重心などのスペクトル形状により抽出音を判定しているため、大きな雑音が混合するとスペクトル形状が歪むため抽出音を判定することができなかった。特に、雑音によりスペクトル形状は失われているが、時間‐周波数領域ごとにみれば抽出音が部分的に存在する場合に、この部分の周波数信号を抽出音の周波数信号として判定することができなかった。
また、第3の従来技術の構成では、所定の方向に指向性を向けて集音することで雑音を除去しているため、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音のみを抽出することができなかった。
また、第4の従来技術の構成では、オーディオ信号の符号化を対象としているため、混合音から抽出音のみを抽出する技術に適用することが困難である。
本発明は、前記従来の課題を解決するもので、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定できる音判定装置等を提供することを目的とする。特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定する音判定装置等を提供することを目的とする。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定する音判定装置を提供することを目的とする。
本発明に係る音判定装置は、複数のマイクロホンからそれぞれ集音される複数の混合音を受付けて、所定の方向から到来する音に対して前記複数のマイクロホン間での到達時間差がゼロになるように前記複数の混合音の時間軸を調整する時間軸調整部と、前記時間軸調整部により調整された時間軸上で、所定の時間幅に含まれる前記複数の混合音の周波数信号を所定の時刻ごとに求める周波数分析部と、前記周波数分析部で求められた前記所定の時間幅に含まれる複数の時刻における前記複数の混合音の周波数信号において、第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、抽出音の周波数信号に判定する抽出音判定部とを備え、前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離である。
この構成によると、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での距離(所定の時間幅のおける位相ψ´(t)の時間形状を計る1つの指標)を用いることにより、抽出音と雑音とが同一の方向に存在する場合にも、時間‐周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができて、音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向に存在する抽出音の周波数信号の位相が複数の混合音同士で類似した値になるため、複数の混合音同士での位相距離も合わせることで、1つの混合音を用いるときよりも正確に抽出音の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向以外の方向に存在する音の周波数信号の位相は複数の混合音同士で異なる値になるため、所定の方向以外の方向に存在する音を除去することができる。
好ましくは、上述の音判定装置は、さらに、前記時間軸調整部により調整された時間軸上で、前記所定の時刻ごとに、前記周波数分析部が求めた複数の前記混合音の周波数信号の中から、他の全ての前記混合音の周波数信号との位相差が第3のしきい値以上である前記混合音の周波数信号を特定する雑音特定部を備え、前記抽出音判定部は、前記周波数分析部が求めた前記所定の時間幅に含まれる前記複数の時刻での前記複数の混合音の周波数信号から、前記雑音特定部が特定した周波数信号を除いた前記周波数信号において、前記第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が前記第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号に判定する。
この構成によると、マイクロホン間での混合音の位相差が第3のしきい値以上である雑音の周波数信号を除いてから抽出音の周波数信号を判定するため、第1のしきい値を用いた判定を正確に行うことができて正確に抽出音の判定を行うことができる。例えば、風雑音のようにマイクロホンごとに独立に発生する雑音は、マイクロホン間で位相が異なるため第3のしきい値を用いることで取り除くことができる。また、所定の方向以外の方向に存在する音に対しても、所定の方向に時間軸が調整されたあとのマイクロホン間で位相差は大きくなるため第3のしきい値を用いることで取り除くことができる。
また、他の全ての前記混合音との周波数信号の位相差が第3のしきい値以上である前記混合音の周波数信号を取り除くことで、抽出音の可能性が残る周波数信号を取り除くことなく抽出音の周波数信号を判定することができる。これは、例えば、全てのマイクロホンで位相差が類似する周波数信号以外を全て取り除いてしまうと、いずれか1つのマイクロホンに風雑音のようにマイクロホンごとに独立に発生する雑音が入力された場合に、他のマイクロホンに抽出音が入力されていても全て除去されてしまうからである。
好ましくは、前記時間軸調整部は、前記所定の方向として複数の方向を設定して、前記設定された方向ごとに前記複数の混合音の時間軸を調整し、前記周波数分析部は、前記設定された方向ごとに調整された時間軸で、前記所定の時間幅に含まれる前記複数の混合音の周波数信号を求め、前記抽出音判定部は、前記設定された方向ごとに、前記方向に対応して調整された時間軸上での前記所定の時間幅に含まれる前記複数の混合音の周波数信号から前記抽出音の周波数信号を判定する。
この構成によると、複数の方向に対して、混合音から抽出音の周波数信号を判定することができる。このため、抽出音の方向がわからない場合でも抽出音の周波数信号を判定することができる。
本発明の他の局面に係る音検知装置は、上述の音判定装置と、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部とを備える。
この構成によると、時間‐周波数領域ごとに、抽出音を検出して利用者に知らせることができる。例えば、車両検知装置に組み込んだ場合には、抽出音としてエンジン音を検出して、運転者に車両の接近を知らせることができる。
本発明のさらに他の局面に係る音抽出装置は、上述の音判定装置と、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号であると判定された周波数信号を出力する音抽出部とを備える。
この構成によると、時間‐周波数領域ごとに判定された抽出音の周波数信号を利用できるため、例えば、音出力装置に組み込めば、雑音が除去されたあとのきれいな抽出音が再現できる。また、音源方向検知装置に組み込めば、雑音が除去されたあとの正確な音源方向を求めることができる。また、音識別装置に組み込めば、周囲に雑音が存在する場合でも正確に音識別を行うことができる。
本発明のさらに他の局面に係る方向検知装置は、上述の音判定装置と、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号が判定された前記所定の方向を前記抽出音の音源方向として出力する方向検知部とを備える。
この構成によると、抽出音の周波数信号が判定された方向を抽出音の音源方向に判定することで、複数の方向に抽出音が存在する場合でも抽出音の各々の音源方向を出力することができる。特に、異なる種類の抽出音(例えば、Aさんの音声とBさんの音声)が異なる方向から入力された場合でも各々の抽出音の音源方向を出力することができる。
好ましくは、前記方向検知部は、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号が判定された前記所定の方向のうち、前記位相距離が最小になる方向を前記抽出音の音源方向として出力する。
この構成によると、位相距離が最小になる方向を抽出音の音源方向として出力するため、1つの方向から抽出音が入力された場合に抽出音の正確な音源方向を出力することができる。
なお、本発明は、このような特徴的な処理部を備える音判定装置として実現することができるだけでなく、音判定装置に含まれる特徴的な処理部をステップとする音判定方法として実現したり、音判定方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音判定装置等によれば、時間‐周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができる。特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定することができる。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定することができる。
例えば、時間‐周波数領域ごとに判定された音声の周波数信号を入力して逆周波数変換により抽出音を出力する音声出力装置や、方向ごとの混合音から時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して抽出音の音源方向を出力する音源方向検知装置や、時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して音声認識や音識別を行う音識別装置や、時間‐周波数領域ごとに判定されたエンジン音を検知して車両の接近を知らせる車両検知装置や、時間‐周波数領域ごとに判定されたサイレン音の周波数信号を検知して緊急車両の接近を知らせる緊急車両検知装置や、時間‐周波数領域ごとに判定されたエンジン音やサイレン音が存在する方向を運転者に知らせる車両検知装置等に適用できる。
本発明の特徴は、入力した混合音を周波数分析した後に、分析した周波数信号の位相の時間変化が、(1/f)(fは分析周波数)で規則的に繰り返されるか否かにより、分析周波数fにおいて、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定することである。
図3Aおよび図3Bは、本発明の特徴を説明する概念図である。図3Aは、バイク音(エンジン音)を周波数fで周波数分析した結果を模式的に示した図である。図3Bは、暗騒音を周波数fで周波数分析した結果を模式的に示した図である。両図ともに横軸は時間軸であり縦軸は周波数軸である。図3Aに示すように、周波数の時間変化などの影響により周波数信号の振幅(パワー)の大きさは変化するものの、周波数信号の位相の時間変化は、規則的に1/fの時間間隔(fは分析周波数)で等角速度で0〜2π(ラジアン)まで変化する。例えば、100Hzにおける周波数信号では位相は10ms間隔の間に2π(ラジアン)回転して、200Hzにおける周波数信号では位相は5ms間隔の間に2π(ラジアン)回転する。一方、図3Bに示すように、暗騒音などの音色のない音における周波数信号の位相の時間変化は不規則になる。また、混合音が原因で歪んだ部分においても位相の時間変化は乱れて不規則になる。このように、周波数信号の位相の時間変化が規則的な時間‐周波数領域の周波数信号を判定することで、風雑音、雨音、暗騒音などの音色のない音と区別して、エンジン音、サイレン音、音声などの音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
さらに、サイレン音のように機械的で正弦波に近い音と、バイク音(エンジン音)のように物理機構的な音とは、位相の時間変化の規則的な度合いが異なると考えられる。このため位相の時間変化の規則的な度合いを不等号で表すと、
また、本発明では、位相距離を用いているため、雑音と抽出音との周波数信号のパワーの大小に関係なく抽出音の周波数信号を判定することができる。例えば、ある時間‐周波数領域での雑音の周波数信号のパワーが大きい場合でも、位相の規則性を用いることで、この雑音よりもパワーが大きい時間‐周波数領域の抽出音の周波数信号を判定できることはもちろん、この雑音よりもパワーが小さい時間‐周波数領域の抽出音の周波数信号も判定することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図4は、本発明の実施の形態1における雑音除去装置の外観図である。雑音除去装置100は、請求の範囲に記載の時間軸調整部と、周波数分析部と、抽出音判定部と、音抽出部とを備えるものであり、コンピュータを構成する1つの部品であるCPUにより構成される。
図4は、本発明の実施の形態1における雑音除去装置の外観図である。雑音除去装置100は、請求の範囲に記載の時間軸調整部と、周波数分析部と、抽出音判定部と、音抽出部とを備えるものであり、コンピュータを構成する1つの部品であるCPUにより構成される。
図5及び図6は、本発明の実施の形態1における雑音除去装置の構成を示すブロック図である。
図5において、雑音除去装置100は、時間軸調整部103(請求の範囲の時間軸調整部)と、FFT分析部2402(請求の範囲の周波数分析部)と、雑音除去処理部101(請求の範囲の抽出音判定部と音抽出部とから構成される)とを含む。時間軸調整部103、FFT分析部2402、および、雑音除去処理部101は、コンピュータ上で各処理部の機能を実現するためのプログラムを実行することにより実現される。
複数のマイクロホン4107(n)(n=1〜N)は、混合音2401(n)(n=1〜N)を入力する。
このあとに、混合音2401(n)(n=1〜N)をDVD−ROMなどの記録媒体に蓄積して、記録媒体に蓄積された混合音2401(n)(n=1〜N)を用いて以下の処理を行ってもよい。
FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める。以下では、FFT分析部2402で求められた周波数信号の周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
このとき、初めに、時間軸調整部103は、混合音2401(n)(n=1〜N)の時間軸を調整して、次に、FFT分析部2402は、調整された時間軸上での所定の時間幅に含まれる混合音2401(n)(n=1〜N)を用いて周波数信号を求めてもよい。また、処理の順番を逆にして、初めに、FFT分析部2402は、混合音2401(n)(n=1〜N)の周波数信号を求めて、次に、時間軸調整部103は、混合音2401(n)(n=1〜N)の時間軸を調整して、調整された時間軸上での所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を選択してもよい。
雑音除去処理部101は、抽出音判定部101(j)(j=1〜M)(請求の範囲の抽出音判定部)と音抽出部202(j)(j=1〜M)(請求の範囲の音抽出部)とを含む。雑音除去処理部101は、FFT分析部2402が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに、抽出音判定部101(j)(j=1〜M)と音抽出部202(j)(j=1〜M)とを用いて混合音から抽出音の周波数信号を取り出すことで雑音の除去を行う処理部である。
抽出音判定部101(j)(j=1〜M)は、時間軸調整部103により調整された時間軸上での、所定の時間幅に含まれる1/f(fは分析周波数)の時間間隔の時刻から選択される複数の時刻の混合音2401(n)(n=1〜N)の周波数信号を用いて、分析の対象の周波数信号と、所定の時間幅に含まれる複数の周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。また、位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの距離である。そして、位相距離が第2のしきい値以下になる分析の対象とする時刻の周波数信号を抽出音の周波数信号2408に判定する。
このとき、抽出音の周波数信号2408が、いずれの混合音2401(n)(n=1〜N)から判定されたのかを特定することもできる。
最後に、音抽出部202(j)(j=1〜M)は、抽出音判定部101(j)(j=1〜M)が判定した抽出音の周波数信号2408を取り出すことで混合音から雑音の除去を行う。
これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間‐周波数領域ごとに抽出音の周波数信号2408を取り出すことができる。
図6に、抽出音判定部101(j)(j=1〜M)の構成を示すブロック図を示す。
抽出音判定部101(j)(j=1〜M)は、周波数信号選択部200(j)(j=1〜M)と、位相距離判定部201(j)(j=1〜M)とから構成される。
周波数信号選択部200(j)(j=1〜M)は、位相距離を求める際に用いる周波数信号として、時間軸調整部103により調整された時間軸上での、所定の時間幅の混合音2401(n)(n=1〜N)の周波数信号から第1のしきい値以上の数から構成される周波数信号を選択する処理部である。位相距離判定部201(j)(j=1〜M)は、周波数信号選択部200(j)(j=1〜M)が選択した混合音2401(n)(n=1〜N)の周波数信号の位相を用いて位相距離を計算して、位相距離が第2のしきい値以下になる周波数信号を抽出音の周波数信号2408に判定する処理部である。
次に、以上のように構成された雑音除去装置100の動作について説明する。
以下では、j番目の周波数帯域について説明を行う。ここでは、周波数帯域の中心周波数と分析周波数(位相距離を求めるψ´(t)=mod2π(ψ(t)−2πft)における周波数fであって、周波数fに抽出音が存在するか否かを判定することになる)とが一致する場合を例にして説明を行う。他の方法として、周波数帯域を含む複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。
図7及び図8は、雑音除去装置100の動作手順を示すフローチャートである。
ここでは、混合音2401(n)(n=1〜N)として、音声A(有声音)と音声B(有声音)と暗騒音との混合音を用いた場合を一例として説明を行う。この例では、音声Aと音声Bとは異なる方向に音源があって、音声Aの方向は既知であって、混合音2401(n)(n=1〜N)から音声Bと暗騒音とを除去して音声A(抽出音)の周波数信号を抽出することを目的とする。
例えば、車内の複数の音声から運転者の音声だけを集音して音声コマンド入力を行うカーナビゲーションシステムの音声認識機能などに利用できる。
初めに、FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により音声Aの方向(所定の方向)から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める。(ステップS300)。この例では、高速フーリエ変換処理により複素空間上での周波数信号を求めている。
ここで、時間軸調整部103が、所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように時間軸を調整する方法について説明する。ここでは所定の方向をΘとする。
図9は、マイクロホン4107(n)(n=1〜N)と所定の方向(Θ)から到達する音との関係の一例を示した図である。この例では、マイクロホンの本数を3本(N=3)としている。ここで、マイクロホン4107(1)とマイクロホン4107(2)との距離をL2として、マイクロホン4107(1)とマイクロホン4107(3)との距離をL3とすると、マイクロホン4107(1)とマイクロホン4107(2)との到達時間差τ2と、マイクロホン4107(1)とマイクロホン4107(3)との到達時間差τ3は以下の式で求めることができる。
ここで、Cは音速である。
図10に、所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように時間軸を調整した混合音の一例を示す。横軸は時間軸を示している。図10(a)には、時間軸を調整する前の混合音が示されており、図10(b)には、時間軸が調整された後の混合音が示されている。図10(b)に示すように、混合音2401(1)を基準として、混合音2401(2)の時間軸をτ2の時刻だけ遅らせて、混合音2401(3)の時間軸をτ3の時刻だけ遅らせることで、所定の方向(Θ)から到達する音に対して時刻が揃うように時間軸を調整することができる。
次に、雑音除去処理部101は、FFT分析部2402が求めた周波数信号に対して、周波数帯域jごとに、抽出音判定部101(j)を用いて混合音から抽出音の周波数信号を時間‐周波数領域ごとに判定する(ステップS301(j))。そして、音抽出部202(j)を用いて抽出音判定部101(j)が判定した抽出音の周波数信号を取り出すことで雑音の除去を行う(ステップS302(j))。この後の説明はj番目の周波数帯域に関してのみ行う。この例では、j番目の周波数帯域の中心周波数はfである。
抽出音判定部101(j)は、所定の時間幅における1/fの時間間隔の全ての時刻における周波数信号を用いて、分析の対象と周波数信号と、所定の時間幅に含まれる全ての周波数信号(混合音2401(n)(n=1〜N)の周波数信号)との位相距離を求める(ここでは、第1のしきい値として、所定の時間幅に含まれる1/fの時間間隔の周波数信号の数の30%の値を用いている。)。そして、位相距離が第2のしきい値以下である分析の対象とする周波数信号を抽出音の周波数信号2408に判定する(ステップS301(j))。最後に、音抽出部202(j)は、抽出音判定部101(j)が抽出音の周波数信号と判定した周波数信号を取り出すことで雑音を除去する(ステップS302(j))。
図11には、周波数fにおける混合音2401(n)(n=1〜N)の周波数信号が模式的に示されている。水平軸は時間軸であり垂直平面の2軸は周波数信号の実部と虚部とを表している。ここでの時間軸は、所定の方向に時間軸が調整されたあとのものである。
初めに、周波数信号選択部200(j)は、第1のしきい値以上である、所定の時間幅における全ての1/fの時間間隔の混合音2401(n)(n=1〜N)の周波数信号を選択する(ステップS400(j))。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合には、位相の時間変化の規則性を判定することが困難になるからである。図11には、1/fの時間間隔の時刻から選択された周波数信号の位置が白丸印で示されている。
ここで、図12Aと図12Bとに、周波数信号の他の選択方法を示す。表示の方法は図11と同じであるため説明を省略する。図12Aには、1/fの時間間隔の時刻から、1/f×N(N=2)の時間間隔の時刻の周波数信号を選択する一例が示されている。また、図12Bには、1/fの時間間隔の時刻から、ランダムに選択した時刻の周波数信号を選択する一例が示されている。すなわち、周波数信号を選択する方法は、1/fの時間間隔の時刻から得られる周波数信号を選択するいかなる方法を用いてもよい。ただし、選択される周波数信号の数は第1のしきい値以上である必要がある。
ここで、周波数信号選択部200(j)は、位相距離判定部201(j)が位相距離の計算に用いる周波数信号の時間範囲(所定の時間幅)も設定するが、時間範囲の設定方法の説明については、位相距離判定部201(j)の説明と合わせて以下で行う。
次に、位相距離判定部201(j)は、周波数信号選択部200(j)が選択した全ての混合音2401(n)(n=1〜N)の周波数信号を用いて位相距離を計算する(ステップS401(j))。ここでは、位相距離としてパワーで正規化された周波数信号同士の相関値の逆数を用いる。
図13に、位相距離の求め方の一例を示す。図13の表示の方法において、図11と共通する部分の説明は省略する。図13において、分析の対象とする周波数信号を黒丸印で示す。ここでの所定の時間幅の時間長は、FFT分析部2402の高速フーリエ変換処理で用いた窓関数の時間窓幅の2〜4倍の長さに設定することが好ましい。
ここで、位相距離の計算方法を以下に説明する。この例では、1/fの時間間隔の周波数信号を用いて位相距離の計算を行う。以下では、混合音2401(n)(n=1〜N)の周波数信号の実部を
ここで位相距離を求めるため、周波数信号のパワーの大きさで正規化された周波数信号を求める。周波数信号の実部をパワーで正規化した値を
位相距離Sを、
ここで、他の位相距離Sの算出方法を以下に示す。相関値の計算において、総和した周波数信号の数で正規化する方法である
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。例えば、数11に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、
次に、位相距離判定部201(j)は、位相距離が第2のしきい値以下である分析の対象とする周波数信号(混合音2401(n)(n=1〜N)の周波数信号)の各々を抽出音(音声A)の周波数信号2408に判定する(ステップS402(j))。
これらの処理を、時間軸方向に時間シフトを行いながら求めた全ての時刻の周波数信号を分析の対象とする周波数信号として行う。
最後に、音抽出部202(j)は、抽出音判定部101(j)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する。
ここで、雑音として除去される周波数信号の位相について考察を加える。ここでは、第2のしきい値をπ/2(ラジアン)に設定している。図14は、位相距離を求める所定の時間幅における、混合音の周波数信号の位相を模式的に示したものである。横軸は時間であり縦軸は位相である。黒丸印は分析の対象とする周波数信号の位相を示す。ここでは1/fの時間間隔での周波数信号の位相が示されている。図14(a)に示すように、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での位相の距離を求めることは、分析の対象とする周波数信号の位相ψ(t)を通り、時刻tに対して2πfの傾きをもつ直線(1/fの時間間隔では時間軸に水平な直線になる)とのψ(t)での距離を求めることと同じになる。図14(a)では、この直線の近傍に周波数信号の位相が集まっているため、第1のしきい値以上の数の周波数信号との位相距離は第2のしきい値以下になり抽出音の周波数信号に判定される。また、図14(b)のように、分析の対象とする周波数信号の位相を通り、時間に対して2πfの傾きをもつ直線の近傍に、周波数信号がほとんど存在しない場合には、第1のしきい値以上の数の周波数信号との位相距離が第2のしきい値より大きくなるため、抽出音の周波数信号として判定されることはなく雑音として除去される。
このとき、所定の方向に存在する音声Aの周波数信号については、音声Aは音色をもつ音であるとともに、混合音2401(n)(n=1〜N)は音声Aの方向に時間軸が調整されているため、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)は類似した値をもつことになり、音声Aの周波数信号が抽出される。
また、所定の方向に存在しない音声Bの周波数信号については、音声Bは音色をもつ音ではあるが、混合音2401(n)(n=1〜N)は音声Bの方向には時間軸が調整されていないため、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)は分散した値をもつことになり、音声Bの周波数信号を除去することができる。
また、暗騒音の周波数信号については、暗騒音は音色をもたない音であるため、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)は分散した値をもつことになり、暗騒音の周波数信号を除去することができる。
かかる構成によれば、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析する周波数)で表したときの位相の距離を用いることにより、抽出音と雑音とが同一の方向に存在する場合にも、時間‐周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができて、音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向に存在する抽出音の周波数信号の位相が複数の混合音同士で類似した値になるため、複数の混合音同士での位相距離も合わせることで、1つの混合音を用いるときよりも正確に抽出音の周波数信号を判定することができる。
また、所定の方向に対して時間軸が調整されたあとの混合音において、所定の方向以外の方向に存在する音の周波数信号の位相は複数の混合音同士で異なる値になるため、所定の方向以外の方向に存在する音を除去することができる。
また、1/f(fは分析周波数)の時間間隔の周波数信号では、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)となり、位相距離の計算をψ(t)を用いた簡単な計算で行うことができる。
ここで、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での位相の距離について説明する。図3Aを用いて説明したように音色のある音の周波数信号(周波数fの成分をもつとする)は、所定の時間幅において位相は規則的に等角速度かつ1/fの時間間隔の間に2π(ラジアン)回転する。
図15(a)に、周波数分析を行うときに抽出音に畳み込むDFT(Discrete Fourier Transform)の波形を示す。実部はコサイン波形で虚部はマイナスのサイン波形である。ここでは、周波数fの信号について分析を行う。抽出音が周波数fの正弦波であるとき、周波数分析を行ったときの周波数信号の位相ψ(t)の時間変化は、図15(b)に示すように反時計回りになる。このとき、横軸は実部であり縦軸は虚部である。反時計回りの位相ψ(t)を正とすると、位相ψ(t)は1/fの時間で2π(ラジアン)増加する。また、位相ψ(t)は時刻tに対して2πfの傾きで変化するとも言える。図16を用いて、位相ψ(t)の時間変化が反時計回りになる仕組みについて説明する。図16(a)に、抽出音(周波数fの正弦波)を示す。ここでは抽出音の振幅の大きさ(パワーの大きさ)を1に正規化している。図16(b)に、周波数分析を行うときに抽出音に畳み込むDFTの波形(周波数f)を示す。実線は実部のコサイン波形を破線は虚部のマイナスのサイン波形を示している。図16(c)に、図16(a)の抽出音と図16(b)のDFTの波形を畳み込んだときの値の符号を示す。図16(c)より、時刻が(t1〜t2)のとき図15(b)の第1象限に、時刻が(t2〜t3)のとき図15(b)の第2象限に、時刻が(t3〜t4)のとき図15(b)の第3象限に、時刻が(t4〜t5)のとき図15(b)の第4象限に位相が変化することがわかる。このことから、位相ψ(t)の時間変化が反時計回りになることがわかる。
ここで補足であるが、図17(a)のように、横軸を虚部にして縦軸を実部にするという特殊なことをすると位相ψ(t)の増減が反転して、位相ψ(t)は時刻tに対して(−2πf)の傾きで変化することが起こるが、ここでは図15(b)の軸の取り方に補正されているとして説明を行う。また、図17(b)のように、周波数分析を行うときに畳み込む波形を、実部をコサイン波形に虚部をサイン波形にするという特殊なことをすると位相ψ(t)の増減が反転して、位相ψ(t)は時刻tに対して(−2πf)の傾きで変化することが起こるが、ここでは、図15(a)の周波数分析の結果にあうように実部と虚部の符号が補正されていることを前提として説明を行う。
このことから、音色のある音の周波数信号の位相ψ(t)は時刻tに対して2πfの傾きで変化するため、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析する周波数)での位相の距離は小さくなる。
(実施の形態1の変形例)
次に、実施の形態1に示した雑音除去装置の変形例について説明する。
次に、実施の形態1に示した雑音除去装置の変形例について説明する。
変形例に係る雑音除去装置は、図5及び図6を参照して説明した実施の形態1に係る雑音除去装置と同様の構成を有する。ただし、雑音除去処理部101が実行する処理が異なる。
抽出音判定部101(j)(請求の範囲の抽出音判定部)において、位相距離判定部201(j)は、周波数信号選択部200(j)が選択した1/fの時間間隔の時刻の周波数信号を用いて、位相のヒストグラムを作成して、ヒストグラムから、位相距離が第2のしきい値以下でありかつ出現頻度が第1のしきい値以上である周波数信号を判定して、抽出音の周波数信号2408に判定する。
最後に、音抽出部202(j)(請求の範囲の音抽出部)は、位相距離判定部201(j)が判定した抽出音の周波数信号2408を取り出すことで雑音を除去する。
次に、以上のように構成された雑音除去装置100の動作について説明する。雑音除去装置100の動作手順を示すフローチャートは、実施の形態1と同様であり、図7及び図8に示されている。
雑音除去処理部101は、FFT分析部2402(請求の範囲の周波数分析部)が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに抽出音判定部101(j)(j=1〜M)を用いて抽出音の周波数信号を判定する(ステップS301(j)(j=1〜M))。この後の説明は、j番目の周波数帯域に関してのみ行う。この例では、j番目の周波数帯域の中心周波数はfである。
抽出音判定部101(j)は、周波数信号選択部200(j)が選択した1/fの時間間隔の時刻の混合音2401(n)(n=1〜N)の周波数信号を用いて位相のヒストグラムを作成する。そして、位相距離が第2のしきい値以下でありかつ出現頻度が第1のしきい値以上である周波数信号を抽出音の周波数信号2408に判定する。(ステップS301(j))。
位相距離判定部201(j)は、周波数信号選択部200(j)が選択した周波数信号を用いて、上記周波数信号の位相のヒストグラムを作成して位相距離を判定する(ステップS401(j))。以下、ヒストグラムを求める方法について説明する。
周波数信号選択部200(j)が選択した周波数信号を、数4、数5で表すことにする。ここで、以下の式を用いて周波数信号の位相を求める。
図18に、周波数信号の位相のヒストグラムを作成する方法の一例を示す。ここでは、位相区間がΔψ(i)(i=1〜4)で、位相が時間に対して2πf(fは分析周波数)の傾きで変化する帯領域ごとの、所定の時間幅における周波数信号の出現頻度を求めることでヒストグラムを作成する。図18の斜線で示されている部分はΔψ(1)の領域である。ここでは位相を0〜2π(ラジアン)の間に制限して表現しているためにとびとびの領域になっている。ここで、Δψ(i)(i=1〜4)ごとにそれらの領域に含まれる周波数信号の数をカウントすることでヒストグラムを作成することができる。
図19に、周波数信号選択部200(j)が選択した周波数信号と、上記選択された位相のヒストグラムの一例を示す。ここでは、図18のヒストグラムよりも細かいΔψ(i)(i=1〜L)で分析している。ここでは、選択された周波数信号の一部である混合音2401(n)の周波数信号のみを表示している。
図19(a)に、選択された周波数信号を示す。図19(a)の表示の方法は、図11と同じであるので説明を省略する。この例では、選択された周波数信号の中にエンジン音A(音色のある音)とエンジン音B(音色のある音)と暗騒音(音色のない音)との周波数信号が含まれている。
図19(b)に、周波数信号の位相のヒストグラムの一例を模式的に示す。エンジン音Aの周波数信号の集まりは類似した位相(この例ではπ/2(ラジアン)の近傍)を持ち、エンジン音Bの周波数信号の集まりは類似した位相(この例ではπ(ラジアン)の近傍)を持つため、ヒストグラムのπ/2(ラジアン)の近傍とπ(ラジアン)の近傍に山が2つできている。また、暗騒音の周波数信号は特定の位相を持たないため、ヒストグラムでは山ができていない。
そこで、位相距離判定部201(j)は、位相距離が第2のしきい値(π/4(ラジアン))以下であり、かつ出現頻度が第1のしきい値(所定の時間幅に含まれる1/fの時間間隔の全ての周波数信号の数の30%)以上である周波数信号を、抽出音の周波数信号2408に判定する。この例では、π/2(ラジアン)の近傍の周波数信号とπ(ラジアン)近傍の周波数信号とが抽出音の周波数信号2408に判定される。このとき、π/2(ラジアン)近傍の周波数信号とπ(ラジアン)近傍の周波数信号との間の位相距離はπ/4(ラジアン)(第4のしきい値)以上になるため、これらの2つの山の周波数信号の集まりは異なる種類の抽出音として判定することができる。すなわち、エンジン音Aとエンジン音Bとを区別して2つの抽出音の周波数信号として判定することができる。
最後に、音抽出部202(j)は、位相距離判定部201(j)が判定した、異なる種類の抽出音の周波数信号を各々取り出すことで雑音を除去することができる(ステップS402(j))。
かかる構成によれば、抽出音判定部は、第1のしきい値以上の数から構成されかつ周波数信号間の位相の類似度が第2のしきい値以下である周波数信号の集まりを複数作成して、周波数信号の集まり同士の位相距離が第4のしきい値以上になる周波数信号の集まり同士を異なる種類の抽出音と判定することで、同じ時間‐周波数領域に複数の種類の抽出音がある場合にそれらを区別して判定することができる。例えば、複数の車両のエンジン音を区別して判定できるため、本実施の形態を車両検知装置に適用した場合には運転者に同じ方向に複数の異なる車両が存在していることを知らせることができて、運転者は安全に運転できる。また、複数の人の音声を区別して判定できるため、本実施の形態を音声抽出装置に適用した場合には複数の人の音声を分離して聞かせることができる。
本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間‐周波数領域ごとに音声の周波数信号を判定して逆周波数変換によりきれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去されたあとの抽出音の周波数信号を抽出して正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに音声の周波数信号を抽出して正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに抽出音の周波数信号を抽出して正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにエンジン音の周波数信号を抽出したときに車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにサイレン音の周波数信号を抽出したときに緊急車両の接近を知らせることができる。
また、本発明で抽出音(音色のある音)に判定されなかった雑音(音色のない音)の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間‐周波数領域ごとに風雑音の周波数信号を抽出してパワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出してパワーの大きさから車両の接近を検知することができる。
なお、周波数分析部として、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。
なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、周波数分析部が求めた周波数信号の中心周波数fと、位相距離を求める分析周波数f´は異なる値を用いてもよい。このとき、中心周波数fの周波数信号の中に周波数f´における周波数信号が存在する場合に、その周波数信号は抽出音の周波数信号に判定される。また、その周波数信号の詳細な周波数はf´である。
なお、実施の形態1の抽出音判定部101(j)(j=1〜M)において、1/f(fは分析周波数)の時間間隔の時刻から、過去と未来の時刻に対して同じ時間区間K(時間幅96ms)の中から周波数信号を選択したが、過去と未来の時刻に対して異なる時間区間の中から周波数信号を選択してもよい。
なお、実施の形態1において、位相距離を求めるときに分析の対象とする時刻の周波数信号を設定して、時刻ごとの周波数信号に対して抽出音の周波数信号であるか否かの判定を行ったが、複数の周波数信号間の位相距離をまとめて求めて第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することができる。この場合は、時間区間の平均的な位相の時間変化を分析することになるため、雑音の位相と抽出音の位相とがたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、時間軸調整部は所定の方向として複数の方向を設定して、各々の方向で抽出音の周波数信号を判定してもよい。
(実施の形態2)
次に、実施の形態2に係る雑音除去装置について説明する。実施の形態2に係る雑音除去装置は、実施の形態1に係る雑音除去装置と異なり、マイクロホン間での位相差により雑音を除去したあとに、位相距離を求めて抽出音の周波数信号を判定して雑音を除去する。また、混合音の時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正し、補正後の周波数信号の位相ψ´(t)を用いて抽出音の周波数信号を判定して雑音を除去する。
次に、実施の形態2に係る雑音除去装置について説明する。実施の形態2に係る雑音除去装置は、実施の形態1に係る雑音除去装置と異なり、マイクロホン間での位相差により雑音を除去したあとに、位相距離を求めて抽出音の周波数信号を判定して雑音を除去する。また、混合音の時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正し、補正後の周波数信号の位相ψ´(t)を用いて抽出音の周波数信号を判定して雑音を除去する。
図20及び図21は、本発明の実施の形態2における雑音除去装置の構成を示すブロック図である。
図20において、雑音除去装置1500は、時間軸調整部103(請求の範囲の時間軸調整部)と、FFT分析部2402(請求の範囲の周波数分析部)と、雑音除去処理部1504において、位相補正部1501(j)(j=1〜M)と、雑音特定部1505(j)(j=1〜M)(請求の範囲の雑音特定部)と、抽出音判定部1502(j)(j=1〜M)(請求の範囲の抽出音判定部)と、音抽出部1503(j)(j=1〜M)(請求の範囲の音抽出部)とを含む。
FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める。以下では、FFT分析部2402から求められた周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
位相補正部1501(j)(j=1〜M)は、FFT分析部2402が求めた周波数帯域jの周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正する処理部である。
雑音特定部1505(j)(j=1〜M)は、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する。この例では、位相補正部1501(j)(j=1〜M)が求めた補正された位相を用いて位相差を求める。
なお、雑音特定部1505(j)(j=1〜M)は、位相補正する前のFFT分析部2402が求めた周波数信号の位相を用いて位相差を求めてもよい。
抽出音判定部1502(j)(j=1〜M)は、時間軸調整部103により調整された時間軸上での所定の時間幅において、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号を用いて、分析の対象とする位相補正された周波数信号と、所定の時間幅に含まれる複数の位相補正された周波数信号(混合音2401(n)(n=1〜N)の周波数信号)との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。このとき位相距離はψ´(t)を用いて計算する。そして、位相距離が第2のしきい値以下である分析の対象とする周波数信号を抽出音の周波数信号2408に判定する。
このとき、抽出音の周波数信号2408が、いずれの混合音2401(n)(n=1〜N)から判定されたのかを特定することもできる。
最後に、音抽出部1503(j)(j=1〜M)は、抽出音判定部1502(j)(j=1〜M)が判定した抽出音の周波数信号2408を取り出すことで混合音から雑音の除去を行う。
これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間‐周波数領域ごとに抽出音の周波数信号2408を取り出すことができる。
図21に、抽出音判定部1502(j)(j=1〜M)の構成を示すブロック図を示す。
抽出音判定部1502(j)(j=1〜M)は、周波数信号選択部1600(j)(j=1〜M)と、位相距離判定部1601(j)(j=1〜M)とから構成される。
周波数信号選択部1600(j)(j=1〜M)は、所定の時間幅において、位相補正部1501(j)(j=1〜M)が位相補正した周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号から、位相距離判定部1601(j)(j=1〜M)が位相距離を計算するのに用いる周波数信号を選択する処理部である。位相距離判定部1601(j)(j=1〜M)は、周波数信号選択部1600(j)(j=1〜M)が選択した周波数信号の補正された位相ψ´(t)を用いて位相距離を計算して、位相距離が第2のしきい値以下になる周波数信号を抽出音の周波数信号2408に判定する処理部である。
次に、以上のように構成された雑音除去装置1500の動作について説明する。
以下では、j番目の周波数帯域について説明を行う。ここでは、周波数帯域の中心周波数と分析周波数(位相距離を求めるψ´(t)=mod2π(ψ(t)−2πft)における周波数fであって、周波数fに抽出音が存在するか否かを判定することになる)とが一致する場合を例にして説明を行う。他の方法として、周波数帯域を含む周辺の複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。ここでの処理は実施の形態1と同じである。
図22及び図23は、雑音除去装置1500の動作手順を示すフローチャートである。
初めに、FFT分析部2402は、混合音2401(n)(n=1〜N)を受付けて、高速フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1〜N)の周波数信号を時刻ごとに求める(ステップS300)。ここでは、実施の形態1と同様に周波数信号を求める。
次に、位相補正部1501(j)は、FFT分析部2402が求めた周波数帯域jの混合音2401(n)(n=1〜N)の周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を変換することで位相補正を行う(ステップS1700(j))。
図24〜図26を用いて、位相補正を行う方法の一例について説明する。図24(a)には、FFT分析部2402が求めた周波数信号が模式的に示されており、図24(b)には、図24(a)から求めた周波数信号の位相が模式的に示されており、図24(c)には、図24(a)から求めた周波数信号の大きさ(パワー)が模式的に示されている。図24(a)、図24(b)及び図24(c)の横軸は時間軸である。図24(a)の表示の方法は図11と同様であるため説明を省略する。図24(a)には、混合音2401(n)(n=1〜M)の周波数信号の一部である混合音2401(n)の周波数信号のみを表示している。図24(b)の縦軸は周波数信号の位相を表しており0〜2π(ラジアン)の間の値で示される。図24(c)の縦軸は周波数信号の大きさ(パワー)を表している。混合音2401(n)(n=1〜N)の周波数信号の位相ψn(t)(n=1〜N)及び大きさ(パワー)Pn(t)(n=1〜N)は、混合音2401(n)(n=1〜N)の周波数信号の実部を
ここで、図24(b)に示されている周波数信号の位相ψn(t)(n=1〜N)をψ´n(t)=mod2π(ψn(t)−2πft)(fは分析周波数)(n=1〜N)の値に変換することで位相補正を行う。
初めに、基準の時刻を決定する。図25(a)は、図24(b)と同じ内容のものであり、この例では、図25(a)の黒丸印の時刻t0を基準の時刻に決定している。
次に、位相を補正する周波数信号の複数の時刻を決定する。この例では、図25(a)の5個の白丸印の時刻(t1、t2、t3、t4、t5)を、位相を補正する周波数信号の時刻に決定している。
ここで、基準の時刻t0における周波数信号の位相を
次に、図26に、時刻t2における周波数信号の位相を補正する方法を示す。図26(a)と図25(a)とは同じ内容のものである。また、図26(b)は、1/f(fは分析周波数)の時間間隔で等角速度で0〜2π(ラジアン)まで規則的に変化する位相を表している。ここで、補正したあとの位相を
位相補正したあとの周波数信号の位相を図25(b)に×印で示す。図25(b)の表示の方法は図25(a)と同様であるため説明を省略する。
次に、雑音特定部1505(j)は、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する(ステップS1703(j))。この例では、位相補正部1501(j)が求めた補正された位相を用いて位相差を求める。
図27には、位相補正部1501(j)が求めた補正された位相の一例が示されている。表示の方法は図25(b)と同じであるため説明を省略する。横軸の時間軸は所定の方向に時間軸が調整されたものである。この例では、時刻t0、時刻t1、時刻t2の混合音2401(n)(n=1〜N)の補正された位相が示されている。ここではN=3として説明を行う。
図27の時刻t0において、混合音2401(1)の位相ψ´1(t0)は、混合音2401(2)の位相ψ´2(t0)または混合音2401(3)の位相ψ´3(t0)との位相差が第3のしきい値未満であるため、混合音2401(1)の位相ψ´1(t0)(又は周波数信号)は抽出音の候補として残る。同様にして、混合音2401(2)の位相ψ´2(t0)(周波数信号)と混合音2401(3)の位相ψ´3(t0)(周波数信号)も抽出音の候補として残る。
図27の時刻t1において、混合音2401(3)の位相ψ´3(t1)は、混合音2401(1)の位相ψ´2(t1)および混合音2401(2)の位相ψ´2(t1)の両方との位相差が第3のしきい値以上であるため、混合音2401(3)の位相ψ´3(t1)(周波数信号)は雑音として特定される。また、混合音2401(1)の位相ψ´1(t1)と混合音2401(2)の位相ψ´2(t1)は、お互いに第3のしきい値未満であるため、混合音2401(1)の位相ψ´1(t1)(周波数信号)と混合音2401(2)の位相ψ´2(t1)(周波数信号)は抽出音の候補として残る。
図27の時刻t2において、混合音2401(1)の位相ψ´1(t2)と混合音2401(2)の位相ψ´2(t2)と混合音2401(3)の位相ψ´1(t2)は、お互いに位相差が第3のしきい値以上であるため、混合音2401(1)の位相ψ´1(t2)(周波数信号)と混合音2401(2)の位相ψ´2(t2)(周波数信号)と混合音2401(3)の位相ψ´3(t2)(周波数信号)は雑音として特定される。
これにより、位相距離を求める前に雑音の周波数信号を除くことができる。
なお、雑音特定部1505(j)(j=1〜M)は、位相補正する前のFFT分析部2402が求めた周波数信号の位相を用いて位相差を求めてもよい。この場合は、図27の位相ψ´(t)を位相ψ(t)に置き換えて、図27に示した方法と同様な方法で処理を行えばよい。
次に、抽出音判定部1502(j)は、時間軸調整部103により調整された時間軸上での所定の時間幅において、FFT分析部2402が求めた混合音2401(n)(n=1〜N)の周波数信号から、雑音特定部1505(j)が特定した周波数信号を除いた周波数信号を用いて、分析の対象とする位相補正された周波数信号と、所定の時間幅に含まれる複数の位相補正された周波数信号(混合音2401(n)(n=1〜N)の周波数信号)との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。そして、位相距離が第2のしきい値以下になる分析の対象とする周波数信号を抽出音の周波数信号2408に判定する(ステップS1701(j))。
初めに周波数信号選択部1600(j)は、位相補正部1501(j)が求めた所定の時間幅における位相補正された周波数信号から雑音特定部1505(j)が特定した周波数信号を除いた周波数信号の中から、位相距離判定部1601(j)が位相距離の計算に用いる周波数信号を選択する(ステップS1800(j))。ここでは、所定の時間幅に含まれる雑音特定部1505(j)が特定した周波数信号を除いた周波数信号の時刻を時刻t0〜時刻t5として、分析の対象とする周波数信号を、時刻をt0における混合音2401(n´)の周波数信号とする。このとき、位相距離を求めるときに用いた混合音2401(n)(n=1〜N)の周波数信号の数(t0〜t5の6個×N)は第1のしきい値以上の数から構成されている。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合に、位相の時間変化の規則性を判定することが困難になるからである。ここでの所定の時間幅の時間長は、FFT分析部2402の高速フーリエ変換処理で用いた窓関数の時間窓幅の2〜4倍の長さに設定することが好ましい。
次に、位相距離判定部1601(j)は、周波数信号選択部1600(j)が選択した位相補正後の周波数信号を用いて位相距離を計算する(ステップS1801(j))。この例では、位相距離Sは位相の差分誤差であり、
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。例えば、数26に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、
この例では、周波数信号選択部1600(j)が、位相補正部1501(j)が求めた位相補正された周波数信号から、位相距離判定部1601(j)が位相距離の計算に用いる周波数信号を選択している。他の方法としては、位相補正部1501(j)が位相補正する周波数信号を予め周波数信号選択部1600(j)が選択しておいて、位相距離判定部1601(j)は、位相補正部1501(j)により位相補正された周波数信号をそのまま用いて位相距離を求めるようにしてもよい。この場合は、位相距離を計算するために用いる周波数信号のみを位相補正するため処理量を削減できる。
次に、位相距離判定部1601(j)は、位相距離が第2のしきい値以下である分析の対象とする周波数信号の各々を抽出音の周波数信号2408に判定する(ステップS1802(j))。
最後に、音抽出部1503(j)は、抽出音判定部1502(j)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する。
ここで、雑音として除去される周波数信号の位相について考察を加える。この例では、位相距離を位相の差分誤差とする。また、第2のしきい値をπ(ラジアン)に設定する。
図28は、位相距離を求める所定の時間幅における、混合音の周波数信号の位相補正された位相ψ´(t)を模式的に示した図である。横軸は時間tであり縦軸は位相補正された位相ψ´(t)である。黒丸印は分析の対象とする周波数信号の位相を示す。図28(a)に示すように、位相距離を求めることは、分析の対象とする周波数信号の位相補正された位相を通る、時間軸に対して平行な傾きをもつ直線との位相距離を求めることと同じになる。図28(a)では、この直線の近傍に位相距離を求める周波数信号の位相補正された位相が集まっているため、第1のしきい値以上の数の周波数信号との位相距離は第2のしきい値(π(ラジアン))以下になり抽出音の周波数信号に判定される。また、図28(b)のように、分析の対象とする周波数信号の位相補正された位相を通り、時間軸に平行な傾きをもつ直線の近傍に、位相距離を求める周波数信号がほとんど存在しない場合には、第1のしきい値以上の数の周波数信号との位相距離が第2のしきい値(π(ラジアン))より大きくなるため、抽出音の周波数信号として判定されることはなく雑音として除去される。
図29は、混合音の位相を模式的に示した別の例である。横軸は時間軸であり縦軸は位相である。丸印で位相補正された混合音の周波数信号の位相が示されている。実線で囲まれた周波数信号同士は同じクラスタに属しており位相距離が第2のしきい値(π(ラジアン))以下になる周波数信号の集まりである。これらのクラスタは多変量解析を用いても求めることができる。同一のクラスタの中に第1のしきい値以上の数の周波数信号が存在するクラスタの周波数信号は除去されずに抽出され、第1のしきい値より少ない数の周波数信号しか存在しないクラスタの周波数信号は雑音として除去される。図29(a)に示すように、所定の時間幅に一部分だけ雑音部分が含まれる場合に、その一部分の雑音のみを除去することができる。また、図29(b)に示すように、2種類の抽出音が存在する場合にも、所定の時間幅に対して40%以上(ここでは、7個以上)の周波数信号間での位相距離が第2のしきい値(π(ラジアン))以下になる周波数信号を抽出することで2つの抽出音を抽出することができる。このとき、これらのクラスタ間の位相距離はπ(ラジアン)(第4のしきい値)以上であるため、異なる種類の抽出音として判定することもできる。
かかる構成によれば、マイクロホン間での混合音の位相差が第3のしきい値以上である雑音の周波数信号を除いてから抽出音の周波数信号を判定するため、第1のしきい値の判定を正確に行うことができて正確に抽出音の判定を行うことができる。例えば、風雑音のようにマイクロホンごとに独立に発生する雑音は、マイクロホン間で位相が異なるため第3のしきい値を用いることで取り除くことができる。また、所定の方向以外の方向に存在する音に対しても、所定の方向に時間軸が調整されたあとのマイクロホン間で位相差は大きくなるため第3のしきい値を用いることで取り除くことができる。
また、他の全ての前記混合音との周波数信号の位相差が第3のしきい値以上である前記混合音の周波数信号を取り除くことで、抽出音の可能性が残る周波数信号を取り除くことなく抽出音の周波数信号を判定することができる。これは、例えば、全てのマイクロホンで位相差が類似する周波数信号以外を全て取り除いてしまうと、いずれか1つのマイクロホンに風雑音のようにマイクロホンごとに独立に発生する雑音が入力された場合に、他のマイクロホンに抽出音が入力されていても全て除去されてしまうからである。
また、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号においてψ´(t)=mod2π(ψ(t)−2πft)の補正を行うことで、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号で、位相距離をψ´(t)を用いた簡単な計算で求めることができる。このため、1/fの時間間隔が大きくなる低い周波数帯域における抽出音においても、短い時間領域ごとにψ´(t)を用いた簡単な計算で判定することができる。
本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間‐周波数領域ごとに音声の周波数信号を判定して逆周波数変換によりきれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去されたあとの抽出音の周波数信号を抽出して正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに音声の周波数信号を抽出して正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも混合音から時間‐周波数領域ごとに抽出音の周波数信号を抽出して正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにエンジン音の周波数信号を抽出したときに車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにサイレン音の周波数信号を抽出したときに緊急車両の接近を知らせることができる。
また、本発明で抽出音(音色のある音)に判定されなかった雑音(音色のない音)の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間‐周波数領域ごとに風雑音の周波数信号を抽出してパワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間‐周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出してパワーの大きさから車両の接近を検知することができる。
なお、周波数分析部として、離散フーリエ変換、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。
なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、雑音除去装置1500はFFT分析部2402が求めた全て(M個)の周波数帯域に対して雑音の除去を行ったが、雑音を除去したい一部の周波数帯域を選択してから選択した周波数帯域において雑音の除去を行ってもよい。
なお、分析の対象とする周波数信号を定めずに、複数の周波数信号間の位相距離を求めて、第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することもできる。この場合は、時間区間の平均的な位相の時間変化を分析することになるため、雑音の位相が抽出音の位相とたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、位相補正後の位相を用いて、実施の形態1の変形例と同様にして、ヒストグラムを用いて抽出音の周波数信号を判定してもよい。この場合は、図30のようなヒストグラムになる。表示の方法は図18と同じなので説明を省略する。位相補正を行っているためヒストグラムのΔψ´の領域が時間軸に平行になり出現頻度を求めやすくなる。
なお、位相補正後の位相ψ´(t)を用いて、
なお、時間軸調整部は所定の方向として複数の方向を設定して、各々の方向で抽出音の周波数信号を判定してもよい。
(実施の形態3)
次に、実施の形態3に係る車両検知装置について説明する。実施の形態3に係る車両検知装置は、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。実施の形態1と実施の形態2と異なる部分は、時間軸調部が所定の方向として複数の方向を設定して、各々の方向に対して抽出音の判定を行うことである。ここでは、位相距離を求める際に、時間‐周波数領域ごとの混合音に適切な分析周波数を事前に求めてから、求めた分析周波数に対して位相距離を求めてエンジン音の周波数信号を判定する方法について説明する。
次に、実施の形態3に係る車両検知装置について説明する。実施の形態3に係る車両検知装置は、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。実施の形態1と実施の形態2と異なる部分は、時間軸調部が所定の方向として複数の方向を設定して、各々の方向に対して抽出音の判定を行うことである。ここでは、位相距離を求める際に、時間‐周波数領域ごとの混合音に適切な分析周波数を事前に求めてから、求めた分析周波数に対して位相距離を求めてエンジン音の周波数信号を判定する方法について説明する。
図31及び図32は、本発明の実施の形態3における車両検知装置の構成を示すブロック図である。
図31において、車両検知装置4100は、マイクロホン4107(1)と、マイクロホン4107(2)と、時間軸調整部103(請求の範囲の時間軸調整部)と、DFT分析部1100(請求の範囲の周波数分析部)と、車両検知処理部4101において、雑音特定部1505(j)(j=1〜M)(請求の範囲の雑音特定部)と、位相補正部4102(j)(j=1〜M)と、抽出音判定部4103(j)(j=1〜M)(請求の範囲の抽出音判定部)と、音検知部4104(j)(j=1〜M)(請求の範囲の音検知部)と、提示部4106とを含む。
また、図32において、抽出音判定部4103(j)(j=1〜M)は、位相距離判定部4200(j)(j=1〜M)から構成される。
マイクロホン4107(1)は混合音2401(1)を入力して、マイクロホン4107(2)は混合音2401(2)を入力する。この例では、マイクロホン4107(1)とマイクロホン4107(1)はそれぞれ自車両の左前と右前のバンパーに設置されている。これらの混合音の各々はバイクのエンジン音と風雑音とから構成されている。
DFT分析部1100は、混合音2401(n)(n=1、2)を受付けて、離散フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1、2)の周波数信号を時刻ごとに求める処理部である。ここでは、所定の方向として複数の方向を設定する。以下では、DFT分析部1100から求められた周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。この例では、バイクのエンジン音が存在する10Hz〜150Hzの周波数帯域を5Hz間隔ごとに分割して(M=30)周波数信号を求める。
雑音特定部1505(j)(j=1〜M)は、DFT分析部1100が求めた混合音2401(n)(n=1、2)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する。この例では、DFT分析部1100が求めた位相を用いて位相差を求める。この処理は、時間軸調整部103により所定の方向として設定された方向ごとに時間軸を調整して行う。
なお、雑音特定部1505(j)(j=1〜M)は、実施の形態2のように、位相補正部4102(j)(j=1〜M)により補正されたあとの位相を用いて位相差を求めてもよい。
位相補正部4102(j)(j=1〜M)は、時間軸調整部103により所定の方向として設定された方向ごとに、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を補正する処理部である。この例で実施の形態2と異なる部分は、ψ(t)を分析周波数で補正するのではなく、周波数信号を求めた周波数帯域の周波数f´で補正を行うところである。
抽出音判定部4103(j)(j=1〜M)(位相距離判定部4200(j)(j=1〜M))は、時間軸調整部103により所定の方向として設定された方向ごとに、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、時間軸調整部103により調整された時間軸上での所定の時間幅における時刻の、混合音2401(n)(n=1、2)の周波数信号を用いて、この周波数信号に適切な分析周波数を求めてから位相距離を求めて、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する処理部である。
次に、音検知部4104(j)(j=1〜M)は、抽出音判定部4103(j)(j=1〜M)により、時間軸調整部103により所定の方向として設定されたいずれかの方向の中でいずれかの周波数帯域において、混合音2401(n)(n=1、2)からエンジン音(抽出音)の周波数信号が存在すると判定されたときに、抽出音検知フラグ4105を作成して出力する。
最後に、提示部4106は、音検知部4104(j)(j=1〜M)から抽出音検知フラグ4105が入力されたときに、運転者に接近車両の存在を知らせる。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
次に、以上のように構成された車両検知装置4100の動作について説明する。
以下では、j番目の周波数帯域(周波数帯域の周波数はf´)について説明を行う。
図33は、車両検知装置4100の動作手順を示すフローチャートである。
初めに、DFT分析部1100は、混合音2401(n)(n=1、2)を受付けて、離散フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1、2)の周波数信号を時刻ごとに求める。ここでは、所定の方向として複数の方向を設定する(ステップS4300)。この例では、離散フーリエ変換の窓関数幅を25msに設定してある。
図34に、混合音2401(1)と混合音2401(2)のスペクトログラムの一例を示す。横軸は時間軸であり縦軸は周波数軸である。色の濃度は周波数信号のパワーの大きさを表しており、濃い色は周波数信号のパワーが大きいことを示している。ここでの表示には、周波数信号の位相成分の表示は省略されている。図34(a)と図34(b)はそれぞれ混合音2401(1)と混合音2401(2)のスペクトログラムであり、バイクのエンジン音と風雑音とから構成されている。図34(a)と図34(b)の領域Bを見ると、両方の混合音にエンジン音の周波数信号があらわれている。一方、図34(a)と図34(b)の領域Aを見ると、混合音2401(1)にはエンジン音があらわれているが、混合音2401(2)には風雑音の影響でエンジン音がうもれてしまっている。このようにマイクロホン間で混合音の状態が異なるのは、風雑音がマイクロホンの配置に依存して変化する雑音だからである。
次に、雑音特定部1505(j)は、DFT分析部1100が求めた混合音2401(n)(n=1、2)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する(ステップS4301(j))。この例では、DFT分析部1100が求めた位相を用いて位相差を求める。この処理は、時間軸調整部103により所定の方向として設定された方向ごとに時間軸を調整して行う。この例では、第3のしきい値を0.51(ラジアン)に設定している。この処理は、実施の形態2に記載した方法と同様にして行う。
次に、位相補正部4102(j)(j=1〜M)は、時間軸調整部103により所定の方向として設定された方向ごとに、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を変換することで位相補正を行う(ステップS4302(j))。この例で実施の形態2と異なる部分は、ψ(t)を分析周波数fで補正するのではなく、周波数信号を求めた周波数帯域の周波数f´で補正を行うところである。それ以外の条件は実施の形態2と同様であるため説明を省略する。
次に、抽出音判定部4103(j)(位相距離判定部4200(j))は、時間軸調整部103により所定の方向として設定された方向ごとに、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、時間軸調整部103により調整された時間軸上での所定の時間幅における全ての時刻の、混合音2401(n)(n=1、2)の周波数信号(第1のしきい値は、所定の時間幅における時刻の周波数信号の50%の数であり、第1のしきい値以上の数から構成されている)を用いて、分析周波数fを設定して、設定された分析周波数fを用いて位相距離を求める。そして、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する(ステップS4303(j))。
図34(a)および図34(b)における、時間軸調整部103により調整された時間軸上での時刻3.6秒の所定の時間幅(時間長は75msに設定してある)の周波数100Hzの周波数帯域の時間‐周波数領域において適切な分析周波数fを設定する方法について説明する。
図35に、図34の混合音の、時間軸調整部103により調整された時間軸上での時刻3.6秒の所定の時間幅(75ms)の周波数100Hzの周波数帯域の時間‐周波数領域における、周波数帯域の周波数f´で補正された位相ψ´´n(t)(n=1、2)が示されている。横軸は時間軸であり縦軸は位相ψ´´(t)(ψ´´1(t)、ψ´´2(t))である。この例では、周波数帯域の周波数(f´=100Hz)で位相が補正されており、ψ´´n(t)=mod2π(ψn(t)−2π×100×t)(n=1、2)である。また、これらの補正された位相ψ´´n(t)(n=1、2)と、時刻と位相ψ´´(t)の空間で定義される直線との距離(位相距離に対応する)が最小になる直線(直線A)が示されている。
この直線は、線形回帰分析により求めることができる。具体的には、時刻t(i)(i(i=1〜K)はtを離散化したときのインデックス)を説明変数として、補正された位相ψ´´(t(i))を目的変数にする。そして、時刻3.6秒の所定の時間幅(75ms)の周波数100Hzの周波数帯域の時間‐周波数領域における、時刻ごとの補正された位相ψ´´n(t(i))(n=1、2)(i=1〜K)を2K個のデータとして、
ここで、図36を用いて、図35の直線Aの傾きから分析周波数fを求めることができることを説明する。ここでは、直線Aは、1/f´´の時間間隔でψ´´(t)が0〜2π(ラジアン)増加する傾きをもつ直線とする。すなわち、直線Aの傾きを2πf´´とする。
図36の直線Aは、図35の直線Aと同じである。図36の横軸は時間軸であり縦軸は位相である。図36の、時間とψ(t)とで定義される直線Bは、直線Aが周波数f´(周波数帯域の周波数)で位相補正される前の時間とψ(t)とで定義される直線である。すなわち、直線Bは、直線Aに対して時刻が1/f´進むごとに2π(ラジアン)を足し算したものである。この直線Bは、この時間‐周波数領域に抽出音が存在した場合の抽出音の位相ψ(t)とみなすことができて、1/fの時間間隔(fは分析周波数)で等角速度で0〜2π(ラジアン)まで変化する。この直線Bの傾き(2πf)に対応する周波数fが求めたい分析周波数fである。
この例では、分析周波数fよりも周波数帯域の周波数f´の値が小さかったため、直線Aは正の傾きをもっている。なお、分析周波数fと周波数帯域の周波数f´の値とが一致する場合には直線Aの傾きはゼロになり、分析周波数fよりも周波数帯域の周波数f´の値が大きい場合には直線Aの負の傾きをもつことになる。
図36における直線Aと直線Bとの関係から、
図35の直線Aは、補正された位相ψ´´(t)が0〜2π(ラジアン)増加するまでの時間は0.075/0.5(=1/f´´)(秒)であるため、f´´=6.7(Hz)となり、分析周波数fは106.7Hz(100Hz+6.7Hz)になる。
次に、設定された分析周波数fを用いて位相距離(ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での距離)を求める。位相距離は、図35に示された補正された位相ψ´´(t)と直線Aとの距離で求めることができる。このことは、
この例では、位相距離を、所定の時間幅における全ての時刻の位相補正された周波数信号の位相ψ´´(t)と直線Aとの差分誤差で求める。
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。
ここで他の見方をすると、直線Aは位相距離が最小になるように求められているため、直線Aの傾きに対応する周波数f´´から求められる分析周波数fは、位相距離を最小にするものになり、この時間‐周波数領域において適した分析周波数fであったことがわかる。
次に、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する。この例では、第2のしきい値を0.34(ラジアン)に設定している。また、この例では、所定の時間幅における周波数信号全体で1つの位相距離を求めて、時間区間ごとに抽出音の周波数信号の判定をまとめて行っている。
図37に、時間軸調整部103が設定した複数の方向で、エンジン音の周波数信号を判定した結果の一例を示す。この結果は、図34に示す混合音からエンジン音の周波数信号を判定した結果であり、時間軸調整部103が設定した複数の方向のいずれかの方向でエンジン音の周波数信号であると判定された時間‐周波数領域を黒い領域で表示している。横軸は時間軸であり縦軸は周波数である。図34の領域Aと領域Bと、図37の領域Aと領域Bは対応している。これより、図37の領域Aを見ると、混合音2401(n)(n=1、2)の両方の周波数信号を合わせることで、混合音からエンジン音の周波数信号を精度よく判定できていることがわかる。
これらの処理を、全ての周波数帯域j(j=1〜M)に対して行う。
次に、音検知部4104(j)は、抽出音判定部4103(j)により少なくとも1つの周波数帯域に、エンジン音の周波数信号が存在すると判定された時刻に、抽出音検知フラグ4105を作成して出力する(ステップS4304(j))。この例では、バイクのエンジン音が存在する10Hz〜150Hzの周波数帯域における判定結果の全体を用いて、位相距離を求めた時間単位である所定の時間幅(75ms)ごとに抽出音検知フラグ4105を作成して出力するか否かを決定する。
他の抽出音検知フラグ4105の作成方法としては、位相距離を求めた時間単位である所定の時間幅とは独立に設定された時刻ごとに、抽出音検知フラグ4105を作成して出力するか否かを決定する方法がある。例えば、所定の時間幅よりも長い時刻(例えば1秒)ごとに抽出音検知フラグ4105を作成して出力するか否かを決定した場合は、瞬時的に雑音の影響によりエンジン音の周波数信号を検出できなかった時刻が存在しても、安定して抽出音検知フラグ4105を作成して出力することができる。これにより、車両検知を正確に行うことができる。
最後に、提示部4106は、抽出音検知フラグ4105が入力されたときに、運転者に接近車両の存在を知らせる(ステップS4305)。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
かかる構成によれば、マイクロホン間での混合音の位相差が第3のしきい値以上である雑音の周波数信号を除いてから抽出音の周波数信号を判定するため、第1のしきい値の判定を正確に行うことができて正確に抽出音の判定を行うことができる。例えば、風雑音のようにマイクロホンごとに独立に発生する雑音は、マイクロホン間で位相が異なるため第3のしきい値を用いることで取り除くことができる。また、所定の方向以外の方向に存在する音に対しても、所定の方向に時間軸が調整されたあとのマイクロホン間で位相差は大きくなるため第3のしきい値を用いることで取り除くことができる。
また、他の全ての前記混合音との周波数信号の位相差が第3のしきい値以上である前記混合音の周波数信号を取り除くことで、抽出音の可能性が残る周波数信号を取り除くことなく抽出音の周波数信号を判定することができる。これは、例えば、全てのマイクロホンで位相差が類似する周波数信号以外を全て取り除いてしまうと、いずれか1つのマイクロホンに風雑音のようにマイクロホンごとに独立に発生する雑音が入力された場合に、他のマイクロホンに抽出音が入力されていても全て除去されてしまうからである。
また、時間‐周波数領域ごとに、抽出音を判定するのに適切な分析周波数を事前に求めることができるため、多くの数の分析周波数に対して位相距離を求めてから抽出音を判定する必要がなくなる。このため、位相距離を求める処理量が大幅に削減できる。
また、分析周波数が詳細に求めるため、混合音から抽出音の周波数信号が判定されたときに抽出音の詳細な周波数を求めることができる。
また、雑音の影響で、1つのマイクロホンで集音した混合音からは抽出音が検出できなくても、他のマイクロホンで抽出音を検出できる可能性が広がるため、検知ミスを少なくすることができる。この例では、マイクロホンの位置に依存する風雑音の影響が少ないマイクロホンで集音した混合音を利用できるため、抽出音としてのエンジン音を正確に検出して、運転者に車両の接近を知らせることができる。また、この例では2本のマイクロホンを用いたが、3本以上のマイクロホンを用いて抽出音を判定してもよい。
また、複数の周波数信号間の位相距離をまとめて求めて、第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定するため、雑音の位相が抽出音の位相とがたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、実施の形態3に係る車両検知装置において、実施の形態1または実施の形態2における抽出音判定部を用いてもよい。
なお、実施の形態1のように、雑音特定部を用いることなく車両検知を行ってもよい。
(実施の形態3の変形例)
次に、実施の形態3に示した車両検知装置の変形例について説明する。ここでは、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音の方向を出力して運転者に接近車両の方向を知らせるものである。実施の形態3と異なる部分は、音検知部4104(j)(j=1〜M)が方向検知部5501(j)(j=1〜M)に入れ替わっていることである。
次に、実施の形態3に示した車両検知装置の変形例について説明する。ここでは、周辺にエンジン音(抽出音)の周波数信号があると判定されたときに、抽出音の方向を出力して運転者に接近車両の方向を知らせるものである。実施の形態3と異なる部分は、音検知部4104(j)(j=1〜M)が方向検知部5501(j)(j=1〜M)に入れ替わっていることである。
図38は、本発明の実施の形態3の変形例における車両検知装置の構成を示すブロック図である。
図38において、車両検知装置5500は、マイクロホン4107(1)と、マイクロホン4107(2)と、時間軸調整部103(請求の範囲の時間軸調整部)と、DFT分析部1100(請求の範囲の周波数分析部)と、車両検知処理部4101において、雑音特定部1505(j)(j=1〜M)(請求の範囲の雑音特定部)と、位相補正部4102(j)(j=1〜M)と、抽出音判定部4103(j)(j=1〜M)(請求の範囲の抽出音判定部)と、方向検知部5501(j)(j=1〜M)(請求の範囲の方向検知部)と、提示部4106とを含む。
方向検知部5501(j)(j=1〜M)は、抽出音判定部4103(j)(j=1〜M)において抽出音の周波数信号が判定された所定の方向のうち、位相距離が最小になる方向を抽出音の方向5502として提示部4106へ出力する。
次に、以上のように構成された車両検知装置5500の動作について説明する。以下では、j番目の周波数帯域(周波数帯域の周波数はf´)について説明を行う。
図39は、車両検知装置5500の動作手順を示すフローチャートである。
初めに、DFT分析部1100は、混合音2401(n)(n=1、2)を受付けて、離散フーリエ変換処理を施すことで、時間軸調整部103により所定の方向から到達する音に対してマイクロホン間での到達時間差がゼロになるように調整された時間軸上での、所定の時間幅に含まれる混合音2401(n)(n=1、2)の周波数信号を時刻ごとに求める。ここでは、所定の方向として複数の方向を設定する(ステップS4300)。この処理は実施の形態3と同様にして行う。
次に、雑音特定部1505(j)は、DFT分析部1100が求めた混合音2401(n)(n=1、2)の周波数信号から、所定の方向に時間軸が調整されたあとの時刻ごとに、他の全ての混合音との周波数信号の位相差が第3のしきい値以上である混合音の周波数信号を特定する(ステップS4301(j))。この処理は実施の形態3と同様にして行う。
次に、位相補正部4102(j)(j=1〜M)は、時間軸調整部103により所定の方向として設定された方向ごとに、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号から雑音特定部1505(j)(j=1〜M)が特定した周波数信号を除いた周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を変換することで位相補正を行う(ステップS4302(j))。この処理は実施の形態3と同様にして行う。
次に、抽出音判定部4103(j)(位相距離判定部4200(j))は、時間軸調整部103により所定の方向として設定された方向ごとに、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、時間軸調整部103により調整された時間軸上での所定の時間幅における全ての時刻の、混合音2401(n)(n=1、2)の周波数信号(第1のしきい値は、所定の時間幅における時刻の周波数信号の50%の数であり、第1のしきい値以上の数から構成されている)を用いて、分析周波数fを設定して、設定された分析周波数fを用いて位相距離を求める。そして、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号に判定する(ステップS4303(j))。この処理は実施の形態3と同様にして行う。
次に、方向検知部5501(j)は、抽出音判定部4103(j)において抽出音の周波数信号が判定された所定の方向のうち、位相距離が最小になる方向を抽出音の方向5502として提示部4106へ出力する(ステップS5600(j))。
ここでは、初めに、時間軸調整部103により所定の方向として設定された複数の方向のうち、抽出音の周波数信号が存在すると判定された方向を特定する。ここで、いずれの方向に対しても抽出音の周波数信号が存在しないと判定された場合は、抽出音が存在しないため抽出音の方向5502を出力しない。また、1つの方向に対してのみ抽出音の周波数信号が存在すると判定された場合は、この方向を抽出音の方向5502として出力する。また、複数の方向に対して抽出音の周波数信号が存在すると判定された場合は、これらの方向の中で、抽出音の周波数信号を判定したときの位相距離が最小になる方向を抽出音の方向5502として出力する。
なお、複数の方向に対して抽出音の周波数信号が存在すると判定された場合に、判定された全ての方向を抽出音の方向5502として出力してもよい。この場合には、複数の方向に存在する抽出音の各々の音源方向を出力することができる。特に、異なる種類の抽出音(例えば、Aさんの音声とBさんの音声)が異なる方向から入力された場合でも各々の抽出音の音源方向を出力することができる。
最後に、提示部4106は、抽出音の方向5502が入力されたときに、運転者に接近車両の方向として抽出音の方向5502を知らせる(ステップS5601)。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
図40に、接近車両の方向を検知した実験結果の一例を示す。実験の条件は実施の形態3と同じであり、混合音として、図34に示した混合音2401(1)と混合音2401(2)とを用いている。この結果は、図37に示した車両検知結果における車両の音源方向に対応する。
図40(a)は、図34(a)と同じものである。図40(b)、図40(c)、図40(d)は、各時間区間での10Hz〜150Hzで検知された方向(抽出音の方向5502)の頻度分布を示す。横軸は方向を示している。図40(b)は、0.0秒〜4.5秒の時間区間での方向の頻度分布を示しており、図40(c)は、4.5秒〜8.0秒の時間区間での方向の頻度分布を示しており、図40(d)は、8.0秒〜11.0秒の時間区間での方向の頻度分布を示している。図40(b)、図40(c)、図40(d)より、接近車両が左側から接近(図40(b)を参照)して、前方を通過(図40(c)を参照)して、右側に通過(図40(d)を参照)したことを運転者に知らせることができることがわかる。例えば、方向の頻度分布の重心の方向を運転者に提示してもよい。
かかる構成によれば、位相距離が最小になる方向を抽出音の音源方向として出力するため、1つの方向から抽出音が入力された場合に抽出音の正確な音源方向を出力することができる。
次に、複数のマイクロホンの配置の一例について説明する。以下の説明では、車両に複数のマイクロホンを取り付ける場合について説明する。
図41は、複数のマイクロホンの第1の配置例を示す図である。図41は、模式的に示した自車両を上面図である。
図41に示すように、自車両403の前方バンパーに2個のマイクロホン401と、後方バンパーに2個のマイクロホン402とが取り付けられている。検出車両は自車両403の前方に存在する場合を考える。また自車両403は前進している。
自車両403は前進しているため、マイクロホン401には風雑音が入りやすく、マイクロホン402には風雑音は入りにくい。また、検出車両の車両音は、マイクロホン401に対しては空気中を直接到達するため到達時間差の関係から方向を検知しやすく、マイクロホン402に対しては自車両403のボディの影響により到達時間差だけでは方向を検知したときに誤差を生じる。
このため、マイクロホン401だけでは検出車両のエンジン音を抽出する精度が悪くなり、マイクロホン402だけでは検出車両の方向検知の精度が悪くなり、マイクロホン401とマイクロホン402とを合わせて用いる必要がでてくる。
風雑音の影響が少ないマイクロホン402により集音された検出車両のエンジン音の位相を用いることで、マイクロホン401では部分的にしか検出できない検出車両のエンジン音を抽出することができる。また、検出車両のエンジン音が抽出できたときに方向検知の精度が高いマイクロホン401を用いることで、検出車両の方向を正確に求めることができる。
図42および図43は、複数のマイクロホンの第2の配置例を示す図である。図42は、模式的に示した自車両の上面図であり、図43は、模式的に示した自車両の側面図である。
図42および図43に示すように、自車両403の前方バンパーに2個のマイクロホン401と、タイヤが装着されている箇所(例えば泥除けの近く)に2個のマイクロホン404とが取り付けられている。検出車両は自車両403の前方に存在する場合を考える。また自車両403は前進している。
自車両403は前進しているため、マイクロホン401には風雑音が入りやすく、マイクロホン404には車体の陰に取り付けられているため風雑音は入りにくい。また、検出車両の車両音は、マイクロホン401に対しては空気中を直接到達するため到達時間差の関係から方向を検知しやすく、マイクロホン404に対しては自車両403のボディの影響により到達時間差だけでは方向を検知したときに誤差を生じる。
このため、マイクロホン401だけでは検出車両のエンジン音を抽出する精度が悪くなり、マイクロホン404だけでは検出車両の方向検知の精度が悪くなり、マイクロホン401とマイクロホン404とを合わせて用いる必要がでてくる。
風雑音の影響が少ないマイクロホン404により集音された検出車両のエンジン音の位相を用いることで、マイクロホン401では部分的にしか検出できない検出車両のエンジン音を抽出することができる。また、検出車両のエンジン音が抽出できたときに方向検知の精度が高いマイクロホン401を用いることで、検出車両の方向を正確に求めることができる。
図44および図45は、複数のマイクロホンの第3の配置例を示す図である。図44は、模式的に示した自車両の上面図であり、図45は、模式的に示した自車両の側面図である。
図44および図45に示すように、自車両403の前方バンパーに2個のマイクロホン401と、自車両403の天井に2個のマイクロホン405とが取り付けられている。検出車両は自車両の前方に存在する場合を考える。また自車両は前進している。
マイクロホン401には自車両のエンジン音が入りやすく、マイクロホン405にはエンジンルームから距離が離れているため自車両のエンジン音は入りにくい。一方、マイクロホン405はマイクロホン401と比べて風雑音が入りにくい。このとき、自車両のエンジン音と風雑音は異なる雑音であるため雑音が加わるタイミングは異なる。
風雑音の影響が少ないマイクロホン401と自車両のエンジン音の影響が少ないマイクロホン405とを合わせて位相判定することで、検出車両のエンジン音を正確に抽出することができる。これにより、検出車両の方向も正確に検知することができる。
上記実施の形態に示した雑音除去装置および車両検知装置は、コンピュータを構成するCPU上で、上記各装置を構成する各処理部の機能を果たすプログラムを実行することにより実現してもよい。その際、各処理部で処理されるデータは、コンピュータを構成するメモリやハードディスクに記憶される。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
本発明に係る音判定装置等は、時間‐周波数領域で混合音に含まれる抽出音の周波数信号を判定することができる。特に、抽出音と雑音とが同一の方向に存在する場合に、抽出音と雑音とを区別して抽出音の周波数信号を判定することができる。また、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間‐周波数領域ごと判定する音判定装置を提供することを目的とする。
このため、本発明は、時間‐周波数領域ごとに判定された音声の周波数信号を入力して逆周波数変換により抽出音を出力する音声出力装置や、2以上のマイクロホンから入力された混合音の各々に対して、時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して抽出音の音源方向を出力する音源方向検知装置や、時間‐周波数領域ごとに判定された抽出音の周波数信号を入力して音声認識や音識別を行う音識別装置や、時間‐周波数領域ごとに判定された風雑音の周波数信号を入力してパワーの大きさを出力する風音レベル判定装置や、時間‐周波数領域ごとに判定されたタイヤ摩擦による走行音の周波数信号を入力してパワーの大きさから車両を検知する車両検知装置や、時間‐周波数領域ごとに判定されたエンジン音を検知して車両の接近を知らせる車両検知装置や、時間‐周波数領域ごとに判定されたサイレン音の周波数信号を検知して緊急車両の接近を知らせる緊急車両検知装置等に適用できる。
100、1500 雑音除去装置
101、1504 雑音除去処理部
101(j)(j=1〜M)、1502(j)(j=1〜M)、4103(j)(j=1〜M) 抽出音判定部
103 時間軸調整部
200(j)(j=1〜M)、1600(j)(j=1〜M) 周波数信号選択部
201(j)(j=1〜M)、1601(j)(j=1〜M)、4200(j)(j=1〜M) 位相距離判定部
202(j)(j=1〜M)、1503(j)(j=1〜M) 音抽出部
1100 DFT分析部
1501(j)(j=1〜M)、4102(j)(j=1〜M) 位相補正部
1505(j)(j=1〜M) 雑音特定部
2401(n)(n=1〜N) 混合音
2402 FFT分析部
2408 抽出音の周波数信号
2501 認識部
2502 ピッチ抽出部
2503 判定部
2504 周期範囲記憶部
4100、5500 車両検知装置
4101 車両検知処理部
4104(j)(j=1〜M) 音検知部
4105 抽出音検知フラグ
4106 提示部
4107(n)(n=1〜N) マイクロホン
5100 音声入力部
5101 音声受付部
5102 信号変換部
5103 位相差分算出部
5104 確率値特定部
5105 抑制関数算出部
5106 振幅算出部
5107 信号補正部
5108 信号復元部
101、1504 雑音除去処理部
101(j)(j=1〜M)、1502(j)(j=1〜M)、4103(j)(j=1〜M) 抽出音判定部
103 時間軸調整部
200(j)(j=1〜M)、1600(j)(j=1〜M) 周波数信号選択部
201(j)(j=1〜M)、1601(j)(j=1〜M)、4200(j)(j=1〜M) 位相距離判定部
202(j)(j=1〜M)、1503(j)(j=1〜M) 音抽出部
1100 DFT分析部
1501(j)(j=1〜M)、4102(j)(j=1〜M) 位相補正部
1505(j)(j=1〜M) 雑音特定部
2401(n)(n=1〜N) 混合音
2402 FFT分析部
2408 抽出音の周波数信号
2501 認識部
2502 ピッチ抽出部
2503 判定部
2504 周期範囲記憶部
4100、5500 車両検知装置
4101 車両検知処理部
4104(j)(j=1〜M) 音検知部
4105 抽出音検知フラグ
4106 提示部
4107(n)(n=1〜N) マイクロホン
5100 音声入力部
5101 音声受付部
5102 信号変換部
5103 位相差分算出部
5104 確率値特定部
5105 抑制関数算出部
5106 振幅算出部
5107 信号補正部
5108 信号復元部
Claims (9)
- 複数のマイクロホンからそれぞれ集音される複数の混合音を受付けて、所定の方向から到来する音に対して前記複数のマイクロホン間での到達時間差がゼロになるように前記複数の混合音の時間軸を調整する時間軸調整部と、
前記時間軸調整部により調整された時間軸上で、所定の時間幅に含まれる前記複数の混合音の周波数信号を所定の時刻ごとに求める周波数分析部と、
前記周波数分析部で求められた前記所定の時間幅に含まれる複数の時刻における前記複数の混合音の周波数信号において、第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、抽出音の周波数信号に判定する抽出音判定部とを備え、
前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離である
音判定装置。 - さらに、前記時間軸調整部により調整された時間軸上で、前記所定の時刻ごとに、前記周波数分析部が求めた複数の前記混合音の周波数信号の中から、他の全ての前記混合音の周波数信号との位相差が第3のしきい値以上である前記混合音の周波数信号を特定する雑音特定部を備え、
前記抽出音判定部は、前記周波数分析部が求めた前記所定の時間幅に含まれる前記複数の時刻での前記複数の混合音の周波数信号から、前記雑音特定部が特定した周波数信号を除いた前記周波数信号において、前記第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が前記第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号に判定する
請求項1に記載の音判定装置。 - 前記時間軸調整部は、前記所定の方向として複数の方向を設定して、前記設定された方向ごとに前記複数の混合音の時間軸を調整し、
前記周波数分析部は、前記設定された方向ごとに調整された時間軸で、前記所定の時間幅に含まれる前記複数の混合音の周波数信号を求め、
前記抽出音判定部は、前記設定された方向ごとに、前記方向に対応して調整された時間軸上での前記所定の時間幅に含まれる前記複数の混合音の周波数信号から前記抽出音の周波数信号を判定する
請求項1に記載の音判定装置。 - 請求項1に記載の音判定装置と、
前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部とを備える
音検知装置。 - 請求項1に記載の音判定装置と、
前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号であると判定された周波数信号を出力する音抽出部とを備える
音抽出装置。 - 請求項3に記載の音判定装置と、
前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号が判定された前記所定の方向を前記抽出音の音源方向として出力する方向検知部とを備える
方向検知装置。 - 前記方向検知部は、前記音判定装置において、前記混合音から前記抽出音の周波数信号が判定されたときに、前記抽出音の周波数信号が判定された前記所定の方向のうち、前記位相距離が最小になる方向を前記抽出音の音源方向として出力する
請求項6に記載の方向検知装置。 - コンピュータが、複数のマイクロホンからそれぞれ集音される複数の混合音を受付けて、所定の方向から到来する音に対して前記複数のマイクロホン間での到達時間差がゼロになるように前記複数の混合音の時間軸を調整する時間軸調整ステップと、
コンピュータが、前記時間軸調整ステップにより調整された時間軸上で、所定の時間幅に含まれる前記複数の混合音の周波数信号を所定の時刻ごとに求める周波数分析ステップと、
コンピュータが、前記周波数分析ステップにおいて求められた前記所定の時間幅に含まれる複数の時刻における前記複数の混合音の周波数信号において、第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、抽出音の周波数信号に判定する抽出音判定ステップとを含み、
前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離である
音判定方法。 - 複数のマイクロホンからそれぞれ集音される複数の混合音を受付けて、所定の方向から到来する音に対して前記複数のマイクロホン間での到達時間差がゼロになるように前記複数の混合音の時間軸を調整する時間軸調整ステップと、
前記時間軸調整ステップにより調整された時間軸上で、所定の時間幅に含まれる前記複数の混合音の周波数信号を所定の時刻ごとに求める周波数分析ステップと、
前記周波数分析ステップにおいて求められた前記所定の時間幅に含まれる複数の時刻における前記複数の混合音の周波数信号において、第1のしきい値以上の数から構成されかつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、抽出音の周波数信号に判定する抽出音判定ステップとをコンピュータに実行させ、
前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離である
音判定プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008253106 | 2008-09-30 | ||
JP2008253106 | 2008-09-30 | ||
PCT/JP2009/004849 WO2010038385A1 (ja) | 2008-09-30 | 2009-09-25 | 音判定装置、音判定方法、及び、音判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4545233B2 JP4545233B2 (ja) | 2010-09-15 |
JPWO2010038385A1 true JPWO2010038385A1 (ja) | 2012-02-23 |
Family
ID=42073169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010510597A Expired - Fee Related JP4545233B2 (ja) | 2008-09-30 | 2009-09-25 | 音判定装置、音判定方法、及び、音判定プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100208902A1 (ja) |
JP (1) | JP4545233B2 (ja) |
WO (1) | WO2010038385A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103069468A (zh) * | 2011-01-18 | 2013-04-24 | 松下电器产业株式会社 | 车辆方向确定装置、车辆方向确定方法及其程序 |
EP2673956B1 (en) * | 2011-02-10 | 2019-04-24 | Dolby Laboratories Licensing Corporation | System and method for wind detection and suppression |
JP5516455B2 (ja) * | 2011-02-23 | 2014-06-11 | トヨタ自動車株式会社 | 接近車両検出装置及び接近車両検出方法 |
US8818800B2 (en) * | 2011-07-29 | 2014-08-26 | 2236008 Ontario Inc. | Off-axis audio suppressions in an automobile cabin |
US10107893B2 (en) * | 2011-08-05 | 2018-10-23 | TrackThings LLC | Apparatus and method to automatically set a master-slave monitoring system |
WO2013042201A1 (ja) * | 2011-09-20 | 2013-03-28 | トヨタ自動車株式会社 | 音源検出装置 |
JP6085538B2 (ja) * | 2013-09-02 | 2017-02-22 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
CN105338148B (zh) * | 2014-07-18 | 2018-11-06 | 华为技术有限公司 | 一种根据频域能量对音频信号进行检测的方法和装置 |
EP3260858A4 (en) * | 2015-02-16 | 2017-12-27 | Shimadzu Corporation | Noise level estimation method, measurement data processing device, and program for measurement data processing |
JP6780644B2 (ja) * | 2015-06-30 | 2020-11-04 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
CN105785123B (zh) * | 2016-03-22 | 2018-04-06 | 电子科技大学 | 一种基于apFFT相位差的雷达信号频率计算方法 |
FR3064794B1 (fr) * | 2017-03-28 | 2019-11-01 | Continental Automotive France | Systeme et procede de transmission d’un message oral dans un vehicule |
US11468904B2 (en) * | 2019-12-18 | 2022-10-11 | Audio Analytic Ltd | Computer apparatus and method implementing sound detection with an image capture system |
US20230128993A1 (en) * | 2020-03-06 | 2023-04-27 | Cerence Operating Company | System and method for integrated emergency vehicle detection and localization |
US11282382B1 (en) * | 2020-12-22 | 2022-03-22 | Waymo Llc | Phase lock loop siren detection |
CN114627892A (zh) * | 2022-03-18 | 2022-06-14 | 厦门大学 | 一种基于深度学习的多声部音乐人声主旋律提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10313498A (ja) * | 1997-03-13 | 1998-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 回り込み音抑圧形収音方法、装置及び記録媒体 |
JP3174777B2 (ja) * | 1999-01-28 | 2001-06-11 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号処理方法および装置 |
JP2006267444A (ja) * | 2005-03-23 | 2006-10-05 | Toshiba Corp | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699437A (en) * | 1995-08-29 | 1997-12-16 | United Technologies Corporation | Active noise control system using phased-array sensors |
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
DE69932786T2 (de) * | 1998-05-11 | 2007-08-16 | Koninklijke Philips Electronics N.V. | Tonhöhenerkennung |
WO1999059139A2 (en) * | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Speech coding based on determining a noise contribution from a phase change |
US6675140B1 (en) * | 1999-01-28 | 2004-01-06 | Seiko Epson Corporation | Mellin-transform information extractor for vibration sources |
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
JP4912036B2 (ja) * | 2006-05-26 | 2012-04-04 | 富士通株式会社 | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
KR20080036897A (ko) * | 2006-10-24 | 2008-04-29 | 삼성전자주식회사 | 음성 끝점을 검출하기 위한 장치 및 방법 |
-
2009
- 2009-09-25 JP JP2010510597A patent/JP4545233B2/ja not_active Expired - Fee Related
- 2009-09-25 WO PCT/JP2009/004849 patent/WO2010038385A1/ja active Application Filing
-
2010
- 2010-04-30 US US12/770,971 patent/US20100208902A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10313498A (ja) * | 1997-03-13 | 1998-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 回り込み音抑圧形収音方法、装置及び記録媒体 |
JP3174777B2 (ja) * | 1999-01-28 | 2001-06-11 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号処理方法および装置 |
JP2006267444A (ja) * | 2005-03-23 | 2006-10-05 | Toshiba Corp | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4545233B2 (ja) | 2010-09-15 |
WO2010038385A1 (ja) | 2010-04-08 |
US20100208902A1 (en) | 2010-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4545233B2 (ja) | 音判定装置、音判定方法、及び、音判定プログラム | |
JP4310371B2 (ja) | 音判定装置、音検知装置及び音判定方法 | |
JP4547042B2 (ja) | 音判定装置、音検知装置及び音判定方法 | |
JP4339929B2 (ja) | 音源方向検知装置 | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
JP4891464B2 (ja) | 音識別装置及び音識別方法 | |
EP3203380B1 (en) | Multi-mode auxiliary data encoding in audio | |
US8498863B2 (en) | Method and apparatus for audio source separation | |
JP5048887B2 (ja) | 車両台数特定装置及び車両台数特定方法 | |
US11847998B2 (en) | Methods and apparatus for harmonic source enhancement | |
May et al. | Computational speech segregation based on an auditory-inspired modulation analysis | |
EP3847642B1 (en) | Methods and apparatus to fingerprint an audio signal via normalization | |
WO2011096155A1 (ja) | 回転数増減判定装置及び回転数増減判定方法 | |
WO2021108186A1 (en) | Methods and apparatus to fingerprint an audio signal via exponential normalization | |
Anemüller et al. | Detection of speech embedded in real acoustic background based on amplitude modulation spectrogram features. | |
WO2020039598A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
Graf et al. | Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra. | |
Maka | A comparative study of onset detection methods in the presence of background noise | |
JP6478727B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP5812393B2 (ja) | 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100629 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |