WO2017141317A1 - 音響信号強調装置 - Google Patents

音響信号強調装置 Download PDF

Info

Publication number
WO2017141317A1
WO2017141317A1 PCT/JP2016/054297 JP2016054297W WO2017141317A1 WO 2017141317 A1 WO2017141317 A1 WO 2017141317A1 JP 2016054297 W JP2016054297 W JP 2016054297W WO 2017141317 A1 WO2017141317 A1 WO 2017141317A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
unit
weighting
neural network
output
Prior art date
Application number
PCT/JP2016/054297
Other languages
English (en)
French (fr)
Inventor
訓 古田
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2016/054297 priority Critical patent/WO2017141317A1/ja
Priority to JP2017557472A priority patent/JP6279181B2/ja
Priority to US16/064,323 priority patent/US10741195B2/en
Priority to CN201680081212.4A priority patent/CN108604452B/zh
Priority to DE112016006218.4T priority patent/DE112016006218B4/de
Publication of WO2017141317A1 publication Critical patent/WO2017141317A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

第1の信号重み付け部(2)は、目的信号と雑音が混入した入力信号から目的信号または雑音の特徴を重み付けした信号を出力する。ニューラルネットワーク演算部(4)は、結合係数を用いて目的信号の強調信号を出力する。逆フィルタ部(6)は、強調信号から目的信号または雑音の特徴の重み付けを解除した信号を出力する。第2の信号重み付け部(9)は、教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する。誤差評価部(11)は、第2の信号重み付け部(9)で重み付けされた信号とニューラルネットワーク演算部(4)の出力信号との学習誤差が設定値以下の値となるよう結合係数を出力する。

Description

音響信号強調装置
 この発明は、入力信号に重畳した目的信号以外の不要な信号を抑圧することで、目的信号を強調する音響信号強調装置に関する。
 近年のディジタル信号処理技術の進展に伴い、携帯電話による屋外での音声通話、自動車内でのハンズフリー音声通話、及び音声認識によるハンズフリー操作が広く普及している。また、人の発する悲鳴や怒号、あるいは機械の発する異常音や振動を捉えて検知する自動監視システムも開発されてきている。
 これらの機能を実現する装置は屋外や工場などの騒音環境下、あるいはスピーカ等で発生される音響信号がマイクロホンに多く回り込む高エコー環境で用いられることが多いため、マイクロホンや振動センサなどに代表される音響トランスデューサに対し、目的信号と共に背景騒音や音響エコー信号など不要な信号も入力されてしまい、通話音声の劣化及び音声認識率、異常音検出率の低下などを招く。そのため、快適な音声通話及び高精度の音声認識や異常音検出を実現するには、入力信号に混入した目的信号外の不要な信号(以下、この不要な信号を「雑音」と称する)を抑圧し、目的信号のみを強調する音響信号強調装置が必要である。
 従来、上記の目的信号のみを強調する方法として、ニューラルネットワークを用いた方法があった(例えば、特許文献1参照)。この従来法は、ニューラルネットワークにより入力信号のSN比を改善することで目的信号を強調している。
特開平5-232986号公報
 ニューラルネットワークは、それぞれが複数の結合素子を含む複数の処理層を有する。各層間の結合素子との間には、結合素子間の結合強度を示す重み係数(結合係数と称する)が設定されるが、用途に応じて事前にニューラルネットワークの結合係数を予め初期設定しておく必要があり、この初期設定をニューラルネットワークの学習と呼ぶ。一般的なニューラルネットワークの学習は、ニューラルネットワーク演算結果と教師信号データとの差を学習誤差と定義し、バックプロパゲーション法などにより、この学習誤差の2乗和を最小化するように結合係数を繰り返し変化させる。
 一般にニューラルネットワークにおいては、大量の学習データを用いて学習を行うことによって各結合素子間の結合係数の最適化が進み、その結果として信号強調精度が向上する。しかしながら、目的信号や雑音の発生の頻度が少ない信号、例えば、悲鳴や怒号などの通常発声しないような音声や地震などの自然災害に伴う音、銃声などの突発的に発生する妨害音、機械の故障の前兆となる異常音・振動や機械異常時に出力する警告音については、多くの学習データを収集することは莫大な時間・費用を要したり、警告音を発生させるために製造ライン等を停止させなければならないなど多くの制約があったりして、少量の学習データしか収集できないのが現実である。このため、上記特許文献1に記載されたような従来の方法ではこのような不十分な学習データではニューラルネットワークの学習がうまくいかず、強調精度が低下するという課題があった。
 この発明は、かかる問題を解決するためになされたもので、学習データが少ない状況においても高品質な音響信号の強調信号を得ることのできる音響信号強調装置を提供することを目的とする。
 この発明に係る音響信号強調装置は、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第1の信号重み付け部と、第1の信号重み付け部で重み付けされた信号に対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、第2の信号重み付け部で重み付けされた信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を出力する誤差評価部とを備えたものである。
 この発明に係る音響信号強調装置は、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第1の信号重み付け部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部とを用いて目的信号または雑音の特徴を重み付けするようにしたものである。これにより、学習データが少ない状況においても高品質な音響信号の強調信号を得ることができる。
この発明の実施の形態1の音響信号強調装置の構成図である。 図2Aは目的信号のスペクトルの説明図、図2Bは目的信号に雑音が混入した場合のスペクトルの説明図、図2Cは従来の方法による強調信号のスペクトルの説明図、図2Dは実施の形態1による強調信号のスペクトルの説明図である。 この発明の実施の形態1の音響信号強調装置の音響信号強調処理の手順の一例を示すフローチャートである。 この発明の実施の形態1の音響信号強調装置のニューラルネットワーク学習の手順の一例を示すフローチャートである。 この発明の実施の形態1の音響信号強調装置のハードウェア構成を示すブロック図である。 この発明の実施の形態1の音響信号強調装置のコンピュータを用いて実現する場合のハードウェア構成を示すブロック図である。 この発明の実施の形態2の音響信号強調装置の構成図である。 この発明の実施の形態3の音響信号強調装置の構成図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、本発明に係る実施の形態1の音響信号強調装置の概略構成を示すブロック図である。図1に示す音響信号強調装置は、信号入力部1と、第1の信号重み付け部2と、第1のフーリエ変換部3と、ニューラルネットワーク演算部4と、逆フーリエ変換部5と、逆フィルタ部6と、信号出力部7と、教師信号出力部8と、第2の信号重み付け部9と、第2のフーリエ変換部10と、誤差評価部11とを備える。
 この音響信号強調装置の入力としては、マイクロホン(図示せず)や振動センサ(図示せず)などの音響トランスデューサを通じて取り込まれた音声・音楽・信号音や雑音などの音響信号である。これら音響信号は、A/D(アナログ・デジタル)変換された後、所定のサンプリング周波数(例えば、8kHz)でサンプリングされると共にフレーム単位(例えば、10ms)に分割された信号に変換されて入力されることになる。ここでは、音声を目的信号である音響信号として例示し動作説明する。
 以下、図1に基づいて、実施の形態1の音響信号強調装置の構成及びその動作原理を説明する。
 信号入力部1は、上述のような音響信号を所定のフレーム間隔で取り込み、時間領域の信号である入力信号x(t)として第1の信号重み付け部2へ出力する。ここで、nは入力信号をフレーム分割したときのフレーム番号、tはサンプリングにおける離散時間番号を表す。
 第1の信号重み付け部2は、入力信号x(t)中に含まれる目的信号または雑音の特徴を良く表現する部分について重み付け処理を行う処理部である。本実施の形態における信号重み付け処理には、例えば、音声スペクトルの重要なピーク成分(スペクトル振幅が大きい成分)、いわゆるフォルマントを強調するために用いられるフォルマント強調を適用することができる。
 フォルマント強調の方法としては、例えば、ハニング窓掛けした音声信号から自己相関係数を求め、帯域伸長処理を施したのち、レビンソン―ダービン(Levinson-Durbin)法により12次の線形予測係数を求め、この線形予測係数からフォルマント強調係数を求める。そして、得られたフォルマント強調係数を用いたARMA(Auto Regressive Moving Average;自己回帰移動平均)型の合成フィルタを通過させることにより行うことができる。フォルマント強調の方法としては上記の方法に限らず、他の公知の手法を用いることができる。
 また、上記重み付けに用いた重み係数w(j)を、後述する逆フィルタ部6へ出力する。ここでjは重み係数の次数であり、フォルマント強調用フィルタのフィルタ次数に相当する。
 また、信号重み付けの方法として、上述のフォルマント強調だけでなく、例えば聴覚マスキングを用いた手法も可能である。聴覚マスキングとは、ある周波数のスペクトル振幅が大きい場合にその周辺周波数のスペクトル振幅が小さい成分を認知できなくなるという、人間の聴覚上の特性のことであり、このマスキングされる(振幅が小さい)スペクトル成分を抑圧することで相対的に強調処理が可能である。
 また、第1の信号重み付け部2の音声信号の特徴の重み付け処理の別方法として、例えば、音声の基本周期構造を示すピッチを強調するピッチ強調を行うことが可能である。あるいは、警告音や異常音といった雑音の持つ特定の周波数成分のみを強調するフィルタ処理を行うことも可能である。例えば、警告音の周波数が2kHzの正弦波の場合、2kHzを中心周波数として上下200Hzのみの周波数成分の振幅を12dB増加させる帯域強調フィルタ処理を実施すればよい。
 第1のフーリエ変換部3は、第1の信号重み付け部2で重み付けされた信号をスペクトルに変換する処理部である。すなわち、第1の信号重み付け部2で重み付けされた入力信号xw_n(t)を例えばハニング窓掛けを行った後、下式(1)のように例えば256点の高速フーリエ変換を行って、時間領域の信号xw_n(t)からスペクトル成分Xw_n(k)に変換する。

Figure JPOXMLDOC01-appb-I000001
 ここで、kはパワースペクトルの周波数帯域の周波数成分を指定する番号(以下、スペクトル番号と称する)、FFT[・]は高速フーリエ変換処理を表す。
 続いて、第1のフーリエ変換部3は下式(2)を用いて、入力信号のスペクトル成分Xw_n(k)からパワースペクトルY(k)と位相スペクトルP(k)を計算する。得られたパワースペクトルY(k)は、ニューラルネットワーク演算部4に出力される。また、位相スペクトルP(k)は、逆フーリエ変換部5に出力される。

Figure JPOXMLDOC01-appb-I000002
 ここで、Re{X(k)}及びIm{X(k)}は、それぞれフーリエ変換後の入力信号スペクトルの実数部及び虚数部を表す。また、M=128である。
 ニューラルネットワーク演算部4は、第1のフーリエ変換部3で変換されたスペクトルを強調して目的信号の強調を行った強調信号を出力する処理部である。すなわち、上述のパワースペクトルY(k)に対応するM点の入力点(ノード)を持ち、128点のパワースペクトルY(k)がニューラルネットワークに入力される。パワースペクトルY(k)は、事前に学習した結合係数によるネットワーク処理により目的信号が強調され、強調されたパワースペクトルS(k)が出力される。
 逆フーリエ変換部5は、強調されたスペクトルを時間領域の強調信号に変換する処理部である。すなわち、ニューラルネットワーク演算部4が出力する強調されたパワースペクトルS(k)と、第1のフーリエ変換部3が出力する位相スペクトルP(k)とを用いて逆フーリエ変換し、RAMなどの一次記憶用の内部メモリに蓄えている本処理の前フレームの結果と重ね合わせ処理した後、重み付き強調信号sw_n(t)を逆フィルタ部6へ出力する。
 逆フィルタ部6は、第1の信号重み付け部2が出力する重み係数w(j)を用い、重み付き強調信号sw_n(t)に対し、第1の信号重み付け部2と逆の操作、すなわち重み付けを解消するフィルタ処理を行い、強調信号s(t)を出力するよう構成されている。
 信号出力部7は、上記の方法により強調された強調信号s(t)を外部へ出力する。
 なお、本実施の形態のニューラルネットワーク演算部4に入力する信号として、高速フーリエ変換により得られたパワースペクトルを用いているが、これに限定されることは無く、例えば、ケプストラム等の音響特徴パラメータを用いたり、フーリエ変換の代わりにコサイン変換やウェーブレット変換などの公知の変換処理を用いたりしても同様な効果を得ることが可能である。ウェーブレット変換の場合はパワースペクトルに代わってウェーブレットを用いることができる。
 教師信号出力部8は、ニューラルネットワーク演算部4内の結合係数を学習するための大量の信号データを保持し、上記学習時に教師信号d(t)を出力する。また、教師信号d(t)に対応した入力信号も第1の信号重み付け部2へ出力する。本実施の形態では目的信号が音声であり、教師信号は雑音が含まれない所定の音声信号、入力信号は同じ教師信号に対し雑音が混入した信号である。
 第2の信号重み付け部9は、第1の信号重み付け部2にて実施したのと同様の重み付け処理を教師信号d(t)に対して行い、重み付けされた教師信号dw_n(t)を出力する。
 第2のフーリエ変換部10は、第1のフーリエ変換部3にて実施したのと同様の高速フーリエ変換処理を行い、教師信号のパワースペクトルD(k)を出力する。
 誤差評価部11は、ニューラルネットワーク演算部4が出力する、強調されたパワースペクトルS(k)と、第2のフーリエ変換部10が出力する教師信号のパワースペクトルD(k)とを用い、下式(3)に定義する学習誤差Eを計算し、得られた結合係数をニューラルネットワーク演算部4に出力する。

Figure JPOXMLDOC01-appb-I000003
 この学習誤差Eを評価関数として、例えば、バックプロパゲーション法により結合係数の変更量が計算される。この学習誤差Eが十分小さくなるまで、ニューラルネットワーク内部の各結合係数の更新が行われる。
 なお、上述の教師信号出力部8、第2の信号重み付け部9、第2のフーリエ変換部10、及び誤差評価部11については、通常はニューラルネットワーク演算部4のネットワーク学習時のみ、すなわち、結合係数を初期最適化する時にのみ動作させるが、例えば、入力信号の様態に応じて教師データを入れ替えて逐次あるいは常時動作させることで、ニューラルネットワークの結合係数を逐次最適化するようにしてもよい。
 教師信号出力部8、第2の信号重み付け部9、第2のフーリエ変換部10、及び誤差評価部11を逐次あるいは常時動作させることで、入力信号の様態の変化、例えば、入力信号に混入する雑音の種類やその大きさが変化した場合にも、入力信号の変化に素早く追従可能な強調処理が可能となり、更に高品質な音響信号強調装置を提供することが可能となる。
 図2A~図2Dは、本実施の形態1に係る音響信号強調装置の出力信号の説明図である。図2Aは目的信号である音声信号のスペクトルであり、図2Bは目的信号に街頭騒音(Street noise)が混入した場合の入力信号のスペクトルである。図2Cは従来方法により強調処理を行った場合の出力信号のスペクトルである。図2Dは本実施の形態1に係る音響信号強調装置により強調処理を行った場合の出力信号のスペクトルである。すなわち、図2C及び図2Dは、強調されたパワースペクトルS(k)のランニングスペクトルを示している。
 各図において、縦軸は周波数(上になるほど周波数が高くなる)、横軸は時間である。また、各図中の色が白い箇所はスペクトルのパワーが大きく、黒くなるにつれてスペクトルのパワーが小さくなることを表している。これらの図より、図2Cの従来方法では音声信号の高周波数のスペクトルが減衰してしまっているのに対し、図2Dの本実施の形態による方法は減衰せずに強調されていることが分かり、本発明の効果が確認できる。
 次に、図3のフローチャートを用いて音響信号強調装置における各部の動作を説明する。
 信号入力部1は、音響信号を所定のフレーム間隔で取りこみ(ステップST1A)、時間領域の信号である入力信号x(t)として第1の信号重み付け部2へ出力する。サンプル番号tが所定の値Tより小さい場合(ステップST1BのYES)、ステップST1Aの処理をT=80になるまで繰り返す。
 第1の信号重み付け部2は、入力信号x(t)中に含まれる目的信号の特徴を良く表現する部分についてフォルマント強調による重み付け処理を行う。
 フォルマント強調は以下の処理を順次行う。まず、入力信号x(t)のハニング窓掛けを行う(ステップST2A)。ハニング窓掛けされた入力信号の自己相関係数を求め(ステップST2B)、帯域伸長(Band Expansion)処理を行う(ステップST2C)。次に、レビンソン―ダービン(Levinson-Durbin)法により12次の線形予測係数を求め(ステップST2D)、この線形予測係数からフォルマント強調係数を求める(ステップST2E)。得られたフォルマント強調係数を用いたARMA型の合成フィルタを用いてフィルタ処理を行う(ステップST2F)。
 第1のフーリエ変換部3は、第1の信号重み付け部2で重み付けされた入力信号xw_n(t)を例えばハニング窓掛けを行い(ステップST3A)、式(1)を用いて例えば256点の高速フーリエ変換を行い、時間領域の信号xw_n(t)からスペクトル成分の信号xw_n(k)に変換する(ステップST3B)。スペクトル番号kが所定の値Nより小さい場合(ステップST3CのYES)、所定の値NになるまでステップST3Bの処理を繰り返す。
 続いて、式(2)を用いて、入力信号のスペクトル成分Xw_n(k)からパワースペクトルY(k)と位相スペクトルP(k)を計算する(ステップST3D)。得られたパワースペクトルY(k)は、後述するニューラルネットワーク演算部4に出力される。また、位相スペクトルP(k)は、後述する逆フーリエ変換部5に出力される。上記のパワースペクトルと位相スペクトルを求める処理は、スペクトル番号kが所定の値Mより小さい場合(ステップST3EのYES)、M=128までステップST3Dの処理を繰り返す。
 ニューラルネットワーク演算部4は、上述のパワースペクトルY(k)に対応するM点の入力点(ノード)を持ち、128点のパワースペクトルY(k)がニューラルネットワークに入力される(ステップST4A)。パワースペクトルY(k)は、事前に学習した結合係数によるネットワーク処理により目的信号が強調され(ステップST4B)、強調されたパワースペクトルS(k)が出力される。
 逆フーリエ変換部5は、ニューラルネットワーク演算部4が出力する強調されたパワースペクトルS(k)と、第1のフーリエ変換部3が出力する位相スペクトルP(k)とを用いて逆フーリエ変換し(ステップST5A)、RAMなどの一次記憶用の内部メモリに蓄えている前フレームの結果と重ね合わせ処理(ステップST5B)を行い、重み付き強調信号sw_n(t)を逆フィルタ部6へ出力する。
 逆フィルタ部6は、第1の信号重み付け部2が出力する重み係数w(j)を用い、重み付き強調信号sw_n(t)に対し、第1の信号重み付け部2と逆の操作、すなわち重み付けを解消するフィルタ処理を行い(ステップST6)、強調信号s(t)を出力する。
 信号出力部7は、強調信号s(t)を外部へ出力する(ステップST7A)。ステップST7Aの後、音響信号強調処理が続行される場合(ステップST7BのYES)、処理手順はステップST1Aに戻る。一方、音響信号強調処理が続行されない場合(ステップST7BのNO)、音響信号強調処理は終了する。
 次に、図4を参照しつつ、上記の音響信号強調処理中のニューラルネットワーク学習の動作例について説明する。図4は、実施の形態1におけるニューラルネットワーク学習の手順の一例を概略的に示すフローチャートである。
 教師信号出力部8は、ニューラルネットワーク演算部4内の結合係数を学習するための大量の信号データを保持し、上記学習時に教師信号d(t)を出力すると共に第1の信号重み付け部2に入力信号を出力する(ステップST8)。本実施の形態では目的信号が音声であり、教師信号は雑音が含まれない音声信号、入力信号は雑音が含まれる音声信号となる。
 第2の信号重み付け部9は、第1の信号重み付け部2にて実施したのと同様の重み付け処理を教師信号d(t)に対して行い(ステップST9)、重み付けされた教師信号dw_n(t)を出力する。
 第2のフーリエ変換部10は、第1のフーリエ変換部3にて実施したのと同様の高速フーリエ変換処理を行い(ステップST10)、教師信号のパワースペクトルD(k)を出力する。
 誤差評価部11は、ニューラルネットワーク演算部4が出力する、強調されたパワースペクトルS(k)と、第2のフーリエ変換部10が出力する教師信号のパワースペクトルD(k)とを用い、式(3)に定義する学習誤差Eを計算する(ステップST11A)。この学習誤差Eを評価関数として、例えば、バックプロパゲーション法により結合係数の変更量が計算され(ステップST11B)、この結合係数の変更量がニューラルネットワーク演算部4に出力される(ステップST11C)。そして、学習誤差Eが所定の閾値Eth以下になるまで学習誤差評価を行う。すなわち、学習誤差Eが閾値Ethより大きい場合(ステップST11DのYES)の場合、学習誤差評価(ステップST11A)と結合係数の再計算(ステップST11B)を行い、再計算結果をニューラルネットワーク演算部4に出力する(ステップST11C)。このような処理を、学習誤差Eが所定の閾値Eth以下(ステップST11CのNO)となるまで繰り返し行う。
 なお、上記説明では、ニューラルネットワーク学習の手順はステップST8~ST11として、ステップST1~ステップST7の音響信号強調処理の手順の後のステップ番号としたが、一般的にはステップST1~ST7の実行前にステップST8~ST11が実行される。また、後述するように、ステップST1~ST7とステップST8~ST11を同時並列に実行するようにしてもよい。
 上記の音響信号強調装置のハードウェア構成は、たとえば、ワークステーション、メインフレーム、あるいはパーソナルコンピュータや機器組み込み用途のマイクロコンピュータなどの、CPU(Central Processing Unit)内蔵のコンピュータで実現可能である。あるいは、上記の音響信号強調装置のハードウェア構成は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)またはFPGA(Field-Programmable Gate Array)などのLSI(Large Scale Integrated circuit)により実現されてもよい。
 図5は、DSP、ASICまたはFPGAなどのLSIを用いて構成される音響信号強調装置100のハードウェア構成例を示すブロック図である。図5の例では、音響信号強調装置100は、信号入出力部102、信号処理回路103、記録媒体104及びバスなどの信号路105により構成されている。信号入出力部102は、音響トランスデューサ101及び外部装置106との接続機能を実現するインタフェース回路である。音響トランスデューサ101としては、例えば、マイクロホンや振動センサなどの音響振動を捉えて電気信号へ変換する装置を使用することができる。
 図1に示した第1の信号重み付け部2、第1のフーリエ変換部3、ニューラルネットワーク演算部4、逆フーリエ変換部5、逆フィルタ部6、教師信号出力部8、第2の信号重み付け部9、第2のフーリエ変換部10、及び誤差評価部11の各機能は、信号処理回路103及び記録媒体104で実現することができる。また、図1の信号入力部1及び信号出力部7は信号入出力部102に対応している。
 記録媒体104は、信号処理回路103の各種設定データや信号データなどの各種データを蓄積するために使用される。記録媒体104としては、例えば、SDRAM(Synchronous DRAM)などの揮発性メモリ、HDD(ハードディスクドライブ)またはSSD(ソリッドステートドライブ)などの不揮発性メモリを使用することが可能であり、これにニューラルネットワークの各結合係数の初期状態や各種設定データ、教師信号データを記憶しておくことができる。
 信号処理回路103で強調処理が行われた音響信号は信号入出力部102を経て外部装置106に送出されるが、この外部装置106としては、例えば音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置、異常音検出装置等の各種音声音響処理装置が相当する。また、強調処理が行われた音響信号を増幅装置にて増幅し、スピーカなどで直接音響波形として出力することも外部装置106の機能として実現可能である。なお、本実施の形態の音響信号強調装置は、上述の他の装置と共にDSP等によって実現することも可能である。
 一方、図6は、コンピュータ等の演算装置を用いて構成される音響信号強調装置100のハードウェア構成例を示すブロック図である。図6の例では、音響信号強調装置100は、信号入出力部201、CPU202を内蔵するプロセッサ200、メモリ203、記録媒体204及びバスなどの信号路205により構成されている。信号入出力部201は、音響トランスデューサ101及び外部装置106との接続機能を実現するインタフェース回路である。
 メモリ203は、本実施の形態の音響信号強調処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するROM及びRAM等の記憶手段である。
 第1の信号重み付け部2、第1のフーリエ変換部3、ニューラルネットワーク演算部4、逆フーリエ変換部5、逆フィルタ部6、教師信号出力部8、第2の信号重み付け部9、第2のフーリエ変換部10、及び誤差評価部11の各機能は、プロセッサ200及び記録媒体204で実現することができる。また、図1の信号入力部1及び信号出力部7は信号入出力部201に対応している。
 記録媒体204は、プロセッサ200の各種設定データや信号データなどの各種データを蓄積するために使用される。記録媒体204としては、たとえば、SDRAMなどの揮発性メモリ、HDDまたはSSDを使用することが可能である。OS(オペレーティングシステム)を含むプログラムや、各種設定データ、音響信号データ等の各種データを蓄積することができる。なお、この記録媒体204に、メモリ203内のデータを蓄積しておくこともできる。
 プロセッサ200は、メモリ203中のRAMを作業用メモリとして使用し、メモリ203中のROMから読み出されたコンピュータ・プログラムに従って動作することにより、第1の信号重み付け部2、第1のフーリエ変換部3、ニューラルネットワーク演算部4、逆フーリエ変換部5、逆フィルタ部6、教師信号出力部8、第2の信号重み付け部9、第2のフーリエ変換部10、及び誤差評価部11と同様の信号処理を実行することができる。
 強調処理が行われた音響信号は信号入出力部102を経て外部装置106に送出されるが、この外部装置としては、例えば音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置、異常音検出装置等の各種音声音響処理装置が相当する。また、強調処理が行われた音響信号を増幅装置にて増幅し、スピーカなどで直接音響波形として出力することも外部装置106の機能として実現可能である。なお、本実施の形態の音響信号強調装置は、上述の他の装置と共にソフトウエアプログラムとして実行することで実現することも可能である。
 本実施の形態の音響信号強調装置を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していても良いし、CD-ROMなどの記憶媒体にて配布される形式でも良い。また、LAN(Local Area Network)等の無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。更に、本実施の形態の音響信号強調装置100に接続される音響トランスデューサ101や外部装置106に関しても、無線及び有線ネットワークを通じて各種データを送受信しても構わない。
 実施の形態1の音響信号強調装置では、以上のように構成されているため、音響信号中の目的信号である音声の重要な特徴部分を強調してニューラルネットワークの学習を行うこととなり、教師データとなる目的信号が少ない状況でも効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。また、目的信号外の雑音(妨害音)に対しても目的信号の場合と同様の効果(この場合は雑音をより減少させる方向に働く)が得られ、発生頻度が少ない雑音が混入した入力信号データを十分に準備できない状況においても、効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。
 また、この実施の形態1によれば、入力信号の様態に応じて教師データを入れ替えて逐次あるいは常時動作させるので、ニューラルネットワークの結合係数を逐次最適化することが可能であり、入力信号の様態の変化、例えば、入力信号に混入する雑音の種類やその大きさが変化した場合にも、入力信号の変化に素早く追従可能な音響信号強調装置を提供することができる。
 以上説明したように、実施の形態1の音響信号強調装置によれば、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第1の信号重み付け部と、第1の信号重み付け部で重み付けされた信号に対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、第2の信号重み付け部で重み付けされた信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を出力する誤差評価部とを備えたので、学習データが少ない状況においても高品質な音響信号の強調信号を得ることができる。
 また、実施の形態1の音響信号強調装置によれば、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第1の信号重み付け部と、第1の信号重み付け部で重み付けされた信号をスペクトルに変換する第1のフーリエ変換部と、スペクトルに対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、ニューラルネットワーク演算部から出力された強調信号を時間領域の強調信号に変換する逆フーリエ変換部と、逆フーリエ変換部から出力された強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、第2の信号重み付け部で重み付けされた信号をスペクトルに変換する第2のフーリエ変換部と、第2のフーリエ変換部の出力信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を結合係数として出力する誤差評価部とを備えたので、教師信号となる目的信号が少ない状況でも効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。また、目的信号外の雑音(妨害音)に対しても目的信号の場合と同様の効果(この場合は雑音をより減少させる方向に働く)が得られ、発生頻度が少ない雑音が混入した入力信号データを十分に準備できない状況においても、効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。
実施の形態2.
 実施の形態1では、入力信号の重み付け処理を時間波形領域で実施する場合を説明したが、入力信号の重み付け処理を周波数領域で行うことも可能であり、これを実施の形態2として説明する。
 図7は、実施の形態2における音響信号強調装置の内部構成を示すものである。図7において、図1に示す実施の形態1の音響信号強調装置と異なる構成としては、第1の信号重み付け部12、逆フィルタ部13、第2の信号重み付け部14である。その他の構成については実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
 第1の信号重み付け部12は、第1のフーリエ変換部3が出力するパワースペクトルY(k)を入力し、例えば、実施の形態1における第1の信号重み付け部2と同様な処理を周波数領域で実施し、重み付けされたパワースペクトルYw_n(k)を出力する処理部である。併せて、第1の信号重み付け部12は周波数重み係数W(k)を出力する。このとき、周波数重み係数W(k)は周波数毎、すなわち、パワースペクトル毎に設定されることになる。
 逆フィルタ部13では、第1の信号重み付け部12が出力する周波数重み係数W(k)と、ニューラルネットワーク演算部4が出力する強調されたパワースペクトルS(k)とを入力し、実施の形態1における逆フィルタ部6の処理を周波数領域で実施し、強調されたパワースペクトルS(k)の逆フィルタ出力を得る。
 第2の信号重み付け部14は、第2のフーリエ変換部10が出力する教師信号のパワースペクトルD(k)を入力し、例えば、実施の形態1における第2の信号重み付け部9と同様な処理を周波数領域で実施し、重み付けされた教師信号のパワースペクトルDw_n(k)を出力する。
 このように構成された実施の形態2の音響信号強調装置では、信号入力部1は時間領域の信号である入力信号x(t)を第1のフーリエ変換部3に出力する。第1のフーリエ変換部3では、入力信号x(t)に対して実施の形態1と同様の処理を行い、パワースペクトルY(k)と位相スペクトルP(k)を計算し、パワースペクトルY(k)は第1の信号重み付け部12に、位相スペクトルP(k)は逆フーリエ変換部5に出力する。第1の信号重み付け部12は、第1のフーリエ変換部3が出力するパワースペクトルY(k)を入力し、実施の形態1における第1の信号重み付け部2と同様な処理を周波数領域で実施し、重み付けされたパワースペクトルYw_n(k)と周波数重み係数W(k)を出力する。ニューラルネットワーク演算部4は、重み付けされたパワースペクトルYw_n(k)から目的信号を強調し、強調したパワースペクトルS(k)を出力する。逆フィルタ部13は、第1の信号重み付け部12が出力する周波数重み係数w(k)を用い、強調したパワースペクトルS(k)に対し、第1の信号重み付け部2と逆の操作、すなわち重み付けを解消するフィルタ処理を行い、逆フーリエ変換部5に出力する。逆フーリエ変換部5では、第1のフーリエ変換部3が出力する位相スペクトルP(k)を用いて逆フーリエ変換を行い、RAMなどの一次記憶用の内部メモリに蓄えている前フレームの結果と重ね合わせ処理を行って、強調信号s(t)を信号出力部7へ出力する。
 また、実施の形態2におけるニューラルネットワーク学習の動作については、教師信号出力部8からの教師信号d(t)に対して第2のフーリエ変換部10でフーリエ変換を行った後、第2の信号重み付け部14による重み付けが行われる点が実施の形態1とは異なる。すなわち、第2のフーリエ変換部10は、教師信号d(t)に対して第1のフーリエ変換部3にて実施したのと同様の高速フーリエ変換処理を行い、教師信号のパワースペクトルD(k)を出力する。次に第2の信号重み付け部14は、教師信号のパワースペクトルD(k)に対して、第1の信号重み付け部12にて実施したのと同様の重み付け処理を行い、重み付けされた教師信号のパワースペクトルDw_n(k)を出力する。
 誤差評価部11は、ニューラルネットワーク演算部4が出力する、強調されたパワースペクトルS(k)と、第2の信号重み付け部14が出力する重み付けされた教師信号のパワースペクトルDw_n(k)とを用い、実施の形態1と同様に、学習誤差Eが所定の閾値Eth以下となるまで学習誤差Eの計算と結合係数の再計算を行う。
 以上説明したように、実施の形態2の音響信号強調装置によれば、目的信号と雑音が混入した入力信号をスペクトルに変換する第1のフーリエ変換部と、スペクトルに対して目的信号または雑音の特徴を周波数領域で重み付けした信号を出力する第1の信号重み付け部と、第1の信号重み付け部の出力信号に対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、逆フィルタ部の出力信号を時間領域の強調信号に変換する逆フーリエ変換部と、ニューラルネットワークの学習を行うための教師信号をスペクトルに変換する第2のフーリエ変換部と、第2のフーリエ変換部の出力信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、第2の信号重み付け部の出力信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を出力する誤差評価部とを備えたので、実施の形態1の効果に加えて、入力信号の重み付け処理を周波数領域で行うことで、各周波数で重みを細かく設定できたり、複数の重み付け処理が一度に周波数領域で実施できたりするので、より緻密な重み付けが可能となり、更に高品質な音響信号強調装置を提供することが可能となる。
実施の形態3.
 上述の実施の形態1及び実施の形態2では、周波数領域の信号であるパワースペクトルをニューラルネットワーク演算部4の入出力としていたが、時間波形信号を入力することも可能であり、これを実施の形態3として説明する。
 図8は本実施の形態における音響信号強調装置の内部構成を示すものである。図8において、図1と異なる構成としては誤差評価部15である。その他の構成については図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
 ニューラルネットワーク演算部4は、第1の信号重み付け部2が出力する重み付けされた入力信号xw_n(t)を入力し、実施の形態1のニューラルネットワーク演算部4と同様に、目的信号が強調された強調信号s(t)を出力する。
 誤差評価部15は、ニューラルネットワーク演算部4が出力する強調信号s(t)と、第2の信号重み付け部9が出力するdw_n(t)とを用い、下式(4)に定義する学習誤差Etを計算し、得られた結合係数をニューラルネットワーク演算部4に出力する。

Figure JPOXMLDOC01-appb-I000004
 ここで、Tは時間フレーム内のサンプル個数であり、T=80である。
 これ以外の動作については実施の形態1と同様であるため、ここでの説明は省略する。
 以上説明したように、実施の形態3の音響信号強調装置によれば、入力信号及び教師信号を時間波形信号としたので、時間波形信号を直接ニューラルネットワークに入力することで、フーリエ変換と逆フーリエ変換処理とが不要となり、処理量及びメモリ量を削減できる効果がある。
 なお、上記実施の形態1~3では、4層構造のニューラルネットワークを用いているが、これに限られることはなく、5層以上の更に深い構造のニューラルネットワークを用いることも可能であることはいうまでもない。また、出力信号の一部を入力に戻すRNN(Recurrent Neural Network;リカレントニューラルネットワーク)や、RNNの結合素子の構造に改良を加えたLSTM(Long Short-Term Memory)-RNNなどの公知のニューラルネットワークの派生改良型を用いてもよい。
 また、上記実施の形態1、2において、第1のフーリエ変換部3が出力するパワースペクトルの各周波数成分をニューラルネットワーク演算部4へ入力していたが、このパワースペクトルを複数まとめて入力、すなわち、スペクトルの帯域成分を入力とすることも可能である。この帯域の構成方法としては例えば臨界帯域幅でまとめることができる。これはいわゆるバーク尺度で帯域分割したバークスペクトル(Bark Spectrum)である。バークスペクトルを入力とすることで、人間の聴覚特性を模擬することが可能となる上、ニューラルネットワークのノード数を削減することができるので、ニューラルネットワーク演算に要する処理量・メモリ量を削減することができる。また、バークスペクトル以外の適用例としてメル尺度を用いても同様な効果が得られる。
 さらに、上記実施の形態のそれぞれにおいて、雑音の一例として街頭騒音、目的信号の一例として音声を挙げて説明したが、これに限定されることは無く、例えば、自動車または列車の走行騒音や航空機騒音、エレベータなどの昇降機動作騒音、工場内の機械騒音や展示会場等における多くの人声が混じった混声騒音、一般家庭内の生活騒音、ハンズフリー通話時の受話音の発する音響エコーなどにも適用可能であり、これらの雑音及び目的信号についても、各実施の形態にて述べた効果を同様に奏する。
 また、入力信号の周波数帯域幅を4kHzとしているがこれに限ることは無く、例えば、更に広帯域の音声信号や、人に聴こえない20kHz以上の超音波や50Hz以下の低周波信号についても適用可能である。
 上記以外にも、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 以上のように、この発明に係る音響信号強調装置は、高品質な信号強調(あるいは、雑音抑圧や音響エコー低減)が可能なため、音声通信、音声蓄積、音声認識システムのいずれかが導入された、カーナビゲーション、携帯電話やインターフォン等の音声通信システム、ハンズフリー通話システム、TV会議システム及び監視システム等の音質改善と、音声認識システムの認識率向上と、自動監視システムの異常音検出率の向上のために供するのに適している。
 1 信号入力部、2、12 第1の信号重み付け部、3 第1のフーリエ変換部、4 ニューラルネットワーク演算部、5 逆フーリエ変換部、6 逆フィルタ部、7 信号出力部、8 教師信号出力部、9、14 第2の信号重み付け部、10 第2のフーリエ変換部、11、15 誤差評価部、13 逆フィルタ部。

Claims (4)

  1.  目的信号と雑音が混入した入力信号に対して、前記目的信号または前記雑音の特徴を重み付けした信号を出力する第1の信号重み付け部と、
     前記第1の信号重み付け部で重み付けされた信号に対し、結合係数を用いて前記目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、
     前記強調信号から前記目的信号または前記雑音の特徴の重み付けを解除する逆フィルタ部と、
     ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、
     前記第2の信号重み付け部で重み付けされた信号と、前記ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を前記結合係数として出力する誤差評価部とを備えたことを特徴とする音響信号強調装置。
  2.  目的信号と雑音が混入した入力信号から、前記目的信号または前記雑音の特徴を重み付けした信号を出力する第1の信号重み付け部と、
     前記第1の信号重み付け部で重み付けされた信号をスペクトルに変換する第1のフーリエ変換部と、
     前記スペクトルに対し、結合係数を用いて前記目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、
     前記ニューラルネットワーク演算部から出力された強調信号を時間領域の強調信号に変換する逆フーリエ変換部と、
     前記逆フーリエ変換部から出力された強調信号から前記目的信号または前記雑音の特徴の重み付けを解除する逆フィルタ部と、
     ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、
     前記第2の信号重み付け部で重み付けされた信号をスペクトルに変換する第2のフーリエ変換部と、
     前記第2のフーリエ変換部の出力信号と、前記ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を前記結合係数として出力する誤差評価部とを備えたことを特徴とする音響信号強調装置。
  3.  目的信号と雑音が混入した入力信号をスペクトルに変換する第1のフーリエ変換部と、
     前記スペクトルに対して前記目的信号または前記雑音の特徴を周波数領域で重み付けした信号を出力する第1の信号重み付け部と、
     前記第1の信号重み付け部の出力信号に対し、結合係数を用いて前記目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、
     前記強調信号から前記目的信号または前記雑音の特徴の重み付けを解除する逆フィルタ部と、
     前記逆フィルタ部の出力信号を時間領域の強調信号に変換する逆フーリエ変換部と、
     ニューラルネットワークの学習を行うための教師信号をスペクトルに変換する第2のフーリエ変換部と、
     前記第2のフーリエ変換部の出力信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第2の信号重み付け部と、
     前記第2の信号重み付け部の出力信号と、前記ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を前記結合係数として出力する誤差評価部とを備えたことを特徴とする音響信号強調装置。
  4.  前記入力信号及び前記教師信号は時間波形信号であることを特徴とする請求項1記載の音響信号強調装置。
PCT/JP2016/054297 2016-02-15 2016-02-15 音響信号強調装置 WO2017141317A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2016/054297 WO2017141317A1 (ja) 2016-02-15 2016-02-15 音響信号強調装置
JP2017557472A JP6279181B2 (ja) 2016-02-15 2016-02-15 音響信号強調装置
US16/064,323 US10741195B2 (en) 2016-02-15 2016-02-15 Sound signal enhancement device
CN201680081212.4A CN108604452B (zh) 2016-02-15 2016-02-15 声音信号增强装置
DE112016006218.4T DE112016006218B4 (de) 2016-02-15 2016-02-15 Schallsignal-Verbesserungsvorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/054297 WO2017141317A1 (ja) 2016-02-15 2016-02-15 音響信号強調装置

Publications (1)

Publication Number Publication Date
WO2017141317A1 true WO2017141317A1 (ja) 2017-08-24

Family

ID=59625729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/054297 WO2017141317A1 (ja) 2016-02-15 2016-02-15 音響信号強調装置

Country Status (5)

Country Link
US (1) US10741195B2 (ja)
JP (1) JP6279181B2 (ja)
CN (1) CN108604452B (ja)
DE (1) DE112016006218B4 (ja)
WO (1) WO2017141317A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
JP2019090930A (ja) * 2017-11-15 2019-06-13 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
WO2020002914A1 (en) 2018-06-29 2020-01-02 Smartkem Limited Sputter protective layer for organic electronic devices
GB201919031D0 (en) 2019-12-20 2020-02-05 Smartkem Ltd Sputter protective layer for organic electronic devices
JP2020194558A (ja) * 2018-08-10 2020-12-03 ヤマハ株式会社 情報処理方法
US11298101B2 (en) 2018-08-31 2022-04-12 The Trustees Of Dartmouth College Device embedded in, or attached to, a pillow configured for in-bed monitoring of respiration
WO2022101644A1 (en) 2020-11-16 2022-05-19 Smartkem Limited Organic thin film transistor
WO2023247927A1 (en) 2022-06-20 2023-12-28 Smartkem Limited An integrated circuit for a flat-panel display

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068161B (zh) * 2017-04-14 2020-07-28 百度在线网络技术(北京)有限公司 基于人工智能的语音降噪方法、装置和计算机设备
US10726858B2 (en) 2018-06-22 2020-07-28 Intel Corporation Neural network for speech denoising trained with deep feature losses
CN111261179A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 回声消除方法及装置和智能设备
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
JP2021177598A (ja) * 2020-05-08 2021-11-11 シャープ株式会社 音声処理システム、音声処理方法、及び音声処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
JP2011530091A (ja) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5812886B2 (ja) 1975-09-10 1983-03-10 日石三菱株式会社 ポリオレフインノセイゾウホウホウ
JPH05232986A (ja) 1992-02-21 1993-09-10 Hitachi Ltd 音声信号用前処理方法
US5432883A (en) * 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
DE19524847C1 (de) * 1995-07-07 1997-02-13 Siemens Ag Vorrichtung zur Verbesserung gestörter Sprachsignale
US7076168B1 (en) * 1998-02-12 2006-07-11 Aquity, Llc Method and apparatus for using multicarrier interferometry to enhance optical fiber communications
JPH11259445A (ja) 1998-03-13 1999-09-24 Matsushita Electric Ind Co Ltd 学習装置
US6862558B2 (en) * 2001-02-14 2005-03-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Empirical mode decomposition for analyzing acoustical signals
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
AU2003274864A1 (en) * 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
JP2008052117A (ja) * 2006-08-25 2008-03-06 Oki Electric Ind Co Ltd 雑音除去装置、方法及びプログラム
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
CN101599274B (zh) * 2009-06-26 2012-03-28 瑞声声学科技(深圳)有限公司 语音增强的方法
CN102770912B (zh) * 2010-01-13 2015-06-10 沃伊斯亚吉公司 使用线性预测滤波的前向时域混叠消除
DE112010005895B4 (de) * 2010-09-21 2016-12-15 Mitsubishi Electric Corporation Störungsunterdrückungsvorrichtung
CN103270772B (zh) * 2010-11-25 2017-06-06 日本电气株式会社 信号处理设备、信号处理方法
US8548803B2 (en) * 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US20140136451A1 (en) * 2012-11-09 2014-05-15 Apple Inc. Determining Preferential Device Behavior
US9131308B2 (en) * 2014-01-21 2015-09-08 Dopler Labs, Inc. Passive audio ear filters with multiple filter elements
US20170011753A1 (en) * 2014-02-27 2017-01-12 Nuance Communications, Inc. Methods And Apparatus For Adaptive Gain Control In A Communication System
US20160019890A1 (en) * 2014-07-17 2016-01-21 Ford Global Technologies, Llc Vehicle State-Based Hands-Free Phone Noise Reduction With Learning Capability
US9536537B2 (en) * 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
WO2017017569A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Enhanced automatic speech recognition
US10307108B2 (en) * 2015-10-13 2019-06-04 Elekta, Inc. Pseudo-CT generation from MR data using a feature regression model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
JP2011530091A (ja) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
US11594241B2 (en) 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
JP2019090930A (ja) * 2017-11-15 2019-06-13 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
WO2020002914A1 (en) 2018-06-29 2020-01-02 Smartkem Limited Sputter protective layer for organic electronic devices
JP2020194558A (ja) * 2018-08-10 2020-12-03 ヤマハ株式会社 情報処理方法
JP7103390B2 (ja) 2018-08-10 2022-07-20 ヤマハ株式会社 音響信号生成方法、音響信号生成装置およびプログラム
US11298101B2 (en) 2018-08-31 2022-04-12 The Trustees Of Dartmouth College Device embedded in, or attached to, a pillow configured for in-bed monitoring of respiration
GB201919031D0 (en) 2019-12-20 2020-02-05 Smartkem Ltd Sputter protective layer for organic electronic devices
WO2022101644A1 (en) 2020-11-16 2022-05-19 Smartkem Limited Organic thin film transistor
WO2023247927A1 (en) 2022-06-20 2023-12-28 Smartkem Limited An integrated circuit for a flat-panel display

Also Published As

Publication number Publication date
US20180374497A1 (en) 2018-12-27
JP6279181B2 (ja) 2018-02-14
CN108604452B (zh) 2022-08-02
DE112016006218B4 (de) 2022-02-10
US10741195B2 (en) 2020-08-11
CN108604452A (zh) 2018-09-28
JPWO2017141317A1 (ja) 2018-02-22
DE112016006218T5 (de) 2018-09-27

Similar Documents

Publication Publication Date Title
JP6279181B2 (ja) 音響信号強調装置
CN109065067B (zh) 一种基于神经网络模型的会议终端语音降噪方法
EP3189521B1 (en) Method and apparatus for enhancing sound sources
US20110178800A1 (en) Distortion Measurement for Noise Suppression System
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
EP3005344A1 (en) An audio scene apparatus
US20180190311A1 (en) Signal processing apparatus, signal processing method, and signal processing program
US20200045166A1 (en) Acoustic signal processing device, acoustic signal processing method, and hands-free communication device
TW202117706A (zh) 具多麥克風之語音增強裝置及方法
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
JP2021511755A (ja) 音声認識オーディオシステムおよび方法
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
WO2012015569A1 (en) Formant aided noise cancellation using multiple microphones
Morita et al. Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
US20180158447A1 (en) Acoustic environment understanding in machine-human speech communication
Close et al. PAMGAN+/-: Improving Phase-Aware Speech Enhancement Performance via Expanded Discriminator Training
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
US20240161762A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
WO2024102983A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
US20130226568A1 (en) Audio signals by estimations and use of human voice attributes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16890460

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017557472

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 112016006218

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16890460

Country of ref document: EP

Kind code of ref document: A1