JPWO2014112023A1 - 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム - Google Patents

雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム Download PDF

Info

Publication number
JPWO2014112023A1
JPWO2014112023A1 JP2014557199A JP2014557199A JPWO2014112023A1 JP WO2014112023 A1 JPWO2014112023 A1 JP WO2014112023A1 JP 2014557199 A JP2014557199 A JP 2014557199A JP 2014557199 A JP2014557199 A JP 2014557199A JP WO2014112023 A1 JPWO2014112023 A1 JP WO2014112023A1
Authority
JP
Japan
Prior art keywords
noise
estimated
input signal
stationary
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014557199A
Other languages
English (en)
Other versions
JP6265136B2 (ja
Inventor
剛範 辻川
剛範 辻川
健 花沢
健 花沢
秀治 古明地
秀治 古明地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014112023A1 publication Critical patent/JPWO2014112023A1/ja
Application granted granted Critical
Publication of JP6265136B2 publication Critical patent/JP6265136B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

入力信号に含まれる雑音を高精度に推定し、その推定した雑音を用いて入力信号に含まれる雑音を高精度に除去する雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムを提供する。第1の入力信号に含まれる定常的な雑音成分を推定する第1の雑音推定部111と、第1の入力信号から定常的な雑音成分を除去する第1の雑音除去部121と、第1の入力信号に含まれる定常的な雑音成分を再推定する第2の雑音推定部112と、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定する第3の雑音推定部113と、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部114と、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する第2の雑音除去部122とを備える。

Description

本発明は、雑音混じりの音声に含まれる雑音を除去する雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムに関し、特に定常的な雑音と非定常的な雑音の両方を精度良く除去できる雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムに関する。
特許文献1には、雑音推定システムと、雑音推定システムが推定した雑音を用いて雑音除去を行う雑音減衰システムの一例が記載されている。図8は、特許文献1に記載された雑音推定システムの構成を示すブロック図である。図8に示すように、特許文献1に記載された雑音推定システムは、第1の雑音推定部611と、第1の雑音減衰部621と、音声パタン記憶部631と、第2の雑音減衰部622と、第2の雑音推定部612とを備えている。このような構成を有する雑音推定システムは次のように動作する。
入力信号に含まれる雑音を第1の雑音推定部611で推定し、推定した第1の雑音を第1の雑音減衰部621で入力信号から減じることで第1の雑音減衰信号を得る。第1の雑音減衰信号と音声パタン記憶部631に記憶されている音声パタンとを用いて、第2の雑音減衰部622で第2の雑音減衰信号を得る。第2の雑音減衰信号を用いて、第2の雑音推定部612で第2の雑音を求める。
特許文献2には、定常雑音に加え、CDプレーヤやラジオの音声等の非定常雑音が存在する環境における耐雑音性を向上させる技術が記載されている。
特願2007−193517号公報 特開2006−163231号公報
特許文献1に記載された雑音推定システムは、第1の雑音推定部で推定した第1の雑音を用いて雑音減衰信号を求め、その雑音減衰信号を用いて雑音を再推定する。それにより、当該雑音推定システムは、第1の雑音に比べて高精度に入力信号に含まれる雑音を推定することができる。しかし、当該雑音推定システムは下記の問題を有する。
その問題点は、第1の雑音推定部で推定した第1の雑音に含まれない雑音成分、つまり第1の雑音推定部で雑音とみなしていない成分は、第2の雑音推定部の出力である第2の雑音にも含まれないということである。
例えば、第1の雑音推定部で定常的な雑音成分(雑音の平均値、分散値の時間変動が小さい雑音成分)を推定した場合、非定常的な雑音成分(雑音の平均値、分散値の時間変動が大きい雑音成分)は第1の雑音に含まれないため、雑音減衰信号には非定常的な雑音成分が残留する。結果として、第1の雑音と同様に、第2の雑音にも非定常的な雑音は含まれず、第2の雑音を用いて雑音減衰信号を計算しても、その雑音減衰信号には非定常的な雑音成分が残留してしまう。
そこで、本発明は、入力信号に含まれる雑音を高精度に推定し、その推定した雑音を用いて入力信号に含まれる雑音を高精度に除去する雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムを提供することを目的とする。
本発明による雑音除去システムは、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する第2の雑音除去部とを備えることを特徴とする。
本発明による音声検出システムは、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、第2の雑音除去部からの第2の推定音声を第2の雑音推定部からの第2の推定雑音または第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部とを備えることを特徴とする。
本発明による音声認識システムは、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、第2の雑音除去部からの第2の推定音声を第2の雑音推定部からの第2の推定雑音または第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第1の雑音除去部からの第1の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする。
本発明による音声認識システムは、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、第2の雑音除去部からの第2の推定音声を第2の雑音推定部からの第2の推定雑音または第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第1の入力信号と第2の雑音推定部からの第2の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第3の推定音声を出力する第3の雑音除去部と、第3の雑音除去部からの第3の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする。
本発明による雑音除去方法は、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力し、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力し、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力し、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力し、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定し、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去することを特徴とする。
本発明による雑音除去プログラムは、コンピュータに、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する処理と、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する処理と、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する処理と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する処理と、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理と、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する処理とを実行させることを特徴とする。
本発明によれば、入力信号に含まれる雑音を高精度に推定し、その推定した雑音を用いて入力信号に含まれる雑音を高精度に除去することができる。具体的には、第1の入力信号を用いて第1の入力信号に含まれる定常的な雑音成分を高精度に推定し、さらに第2の入力信号も用いて第1の入力信号に含まれる非定常的な雑音成分を推定し、推定した定常的な雑音成分と非定常的な雑音成分とを統合し、第1の入力信号から除去することにより、第1の入力信号に含まれる雑音を高精度に除去することができる。
本発明の第1の実施形態の雑音除去システムの構成を示すブロック図である。 本発明の第1の実施形態の雑音除去システムの処理を示すフローチャートである。 本発明の第2の実施形態の音声検出システムの構成を示すブロック図である。 本発明の第2の実施形態の音声検出システムの他の構成を示すブロック図である。 本発明の第3の実施形態の音声認識システムの構成を示すブロック図である。 本発明の第3の実施形態の音声認識システムの他の構成を示すブロック図である。 本発明による音声認識システムの実施例を示す説明図である。 特許文献1に記載された雑音推定システムの構成を示すブロック図である。
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
図1は、本発明の第1の実施形態の雑音除去システムの構成を示すブロック図である。
図1に示すように、雑音除去システムは、第1のマイクロフォン(以下、マイクという。)101と、第2のマイク102と、第1の雑音推定部111と、第2の雑音推定部112と、第3の雑音推定部113と、推定雑音統合部114と、第1の雑音除去部121と、第2の雑音除去部122とを備える。
第1のマイク101は、入力した音声に基づく信号(以下、第1の入力信号という。)を出力する。
第1の雑音推定部111は、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する。
第1の雑音除去部121は、第1の入力信号と、第1の雑音推定部111で得られた第1の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分を除去する。第1の雑音除去部121は、定常的な雑音成分を除去した第1の入力信号を第1の推定音声として出力する。
第2の雑音推定部112は、第1の入力信号と、第1の雑音除去部121で得られた第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する。
第2のマイク102は、入力した音声に基づく信号(以下、第2の入力信号という。)を出力する。
第3の雑音推定部113は、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる非定常的な雑音成分を推定し、第3の推定雑音を出力する。
推定雑音統合部114は、第2の雑音推定部112からの第2の推定雑音と、第3の雑音推定部113からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分とを推定し、第4の推定雑音を出力する。
第2の雑音除去部122は、第1の入力信号と、推定雑音統合部114で得られた第4の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音分とを除去する。
なお、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121および第2の雑音除去部122は、例えば、雑音除去プログラムに従って動作するコンピュータによって実現される。この場合、CPUが雑音除去プログラムを読み込み、そのプログラムに従って、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121および第2の雑音除去部122として動作する。また、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121および第2の雑音除去部122が別々のハードウェアで実現されていてもよい。
次に、図1および図2を参照して、雑音除去システムの動作を説明する。
図2は、本発明の第1の実施形態の雑音除去システムの処理を示すフローチャートである。
音声信号の周波数スペクトルをS(f,t)、雑音信号の周波数スペクトルをN(k,f,t)とする。そして、第1のマイク101の出力である第1の入力信号の周波数スペクトルX1(f,t)と、第2のマイク102の出力である第2の入力信号の周波数スペクトルX2(f,t)とをそれぞれ式1、式2でモデル化する。ただし、fは周波数のインデックスである。tは時間のインデックスである。kは雑音源のインデックスである。また、雑音源はK個存在するとする。なお、特に断りがない限り、周波数スペクトルはパワースペクトル、振幅パワースペクトルとして取り扱う。また、以降に示す式において、乗算記号「×」を省略する場合がある。
X1(f,t)=S(f,t)+Σ_{k=1}^{K}H(k,f,t)N(k,f,t) (式1)
X2(f,t)=H0(f,t)S(f,t)+Σ_{k=1}^{K}N(k,f,t) (式2)
ここで、H0(f,t)は音声信号S(f,t)が第1のマイク101と第2のマイク102に伝達する時の経路差の周波数スペクトルである。H(k,f,t)は、雑音源kの雑音信号N(k,f,t)が第2のマイク102と第1のマイク101に伝達する時の経路差の周波数スペクトルである。Σ_{x=下限}^{上限}f(x)は変数xを下限から上限まで変化させたときのf(x)の和である。
本発明の雑音除去システムにおける除去対象は、第1の入力信号X1(f,t)に含まれる雑音信号、つまり、式1の第2項Σ_{k=1}^{K}H(k,f,t)N(k,f,t)である。式1におけるこの除去対象の雑音を、第1の雑音成分である定常的な雑音の周波数スペクトルNs(f,t)と、第2の雑音成分である非定常的な雑音の周波数スペクトルNn(f,t)とを用いて書き直し、さらに定常的な雑音の周波数スペクトルNs(f,t)をその平均値Nsm(f,t)と差分Nsv(f,t)とに分解して書き直すと、式1は式3となる。
X1(f,t)=S(f,t)+Ns(f,t)+Nn(f,t)=S(f,t)+{Nsm(f,t)+Nsv(f,t)}+Nn(f,t) (式3)
第1の雑音推定部111は、式3で示す第1の入力信号を第1のマイク101から取得し(ステップS1)、第1の入力信号X1(f,t)に含まれる定常的な雑音成分Ns(f,t)を推定する(ステップS2)。
推定方法の例として、以下のように、所定期間(0<=t<initLen)では、入力信号X1(f,t)が定常的な雑音成分のみから構成されていると仮定して、入力信号X1(f,t)を平均化(時間平均)したものを、第1の推定雑音Ns’1(f,t)とする。
Ns’1(f,t)=ave_{t}[X1(f,t)] (0<=t<initLen)
ただし、ave_{x}[f(x)]はxについてf(x)を平均する演算子である。
第1の推定雑音Ns’1(f,t)の推定方法の別の例として、入力信号X1(f,t)のヒストグラムを作成し、最小値を第1の推定雑音Ns’1(f,t)とする方法がある。または、特開2002−204175号公報に記載された推定方法を用いて第1の推定雑音Ns’1(f,t)を推定する方法がある。
なお、第1の雑音推定部111は、上記の例と異なる方法を用いて第1の推定雑音Ns’1(f,t)を推定してもよい。
第1の雑音推定部111が第1の推定雑音Ns’1(f,t)を計算した後、第1の雑音除去部121は第1の推定音声S’1(f,t)を求める(ステップS3)。以下に第1の推定音声S’1(f,t)の推定方法の一例を示す。
S’1(f,t)=W(f,t)X1(f,t)
W(f,t)=S’’1(f,t)/{S’’1(f,t)+Ns’1(f,t)}
S’’1(f,t)=0.98×S’’1(f,t−1)+0.02×max[X1(f,t)−Ns’1(f,t),0]
第1の推定音声S’1(f,t)の推定方法の別の例として、S’’1(f,t)を第1の推定音声S’1(f,t)に代入する方法がある。または、特許文献1に記載された方法と同様に、S’’1(f,t)を事前に学習した音声のパタンを用いて補正した後にW(f,t)を計算し、X1(f,t)に乗算することでS’1(f,t)を推定する方法がある。または、S’’1(f,t)を音声のパタンを用いて補正して、第1の推定音声としてS’1(f,t)に代入する方法がある。
なお、第1の雑音除去部121は、上記の例と異なる方法を用いて第1の推定音声S’1(f,t)を推定してもよい。
第1の雑音除去部121が第1の推定音声S’1(f,t)を計算した後、第2の雑音推定部112は、第1の入力信号X1(f,t)と第1の推定音声S’1(f,t)とを少なくとも用いて、第2の推定雑音Ns’2(f,t)を求める(ステップS4)。以下に第2の推定雑音Ns’2(f,t)の推定方法の一例を示す。
Ns’2(f,t)=X1(f,t)−S’1(f,t)
また、第2の雑音推定部112は、第1の入力信号X1(f,t)、第1の推定音声S’1(f,t)の他に、第1の推定雑音Ns’1(f,t)を用いて、第2の推定雑音Ns’2(f,t)を推定してもよい。
第2の推定雑音Ns’2(f,t)の推定方法の別の例として、以下のように第2の推定雑音Ns’2(f,t)を求める方法がある。
Ns’2(f,t)=WI(f,t)X1(f,t)
WI(f,t)=Ns’1(f,t)/{S’1(f,t)+Ns’1(f,t)}
または、
WI(f,t)=1−S’1(f,t)/{S’1(f,t)+Ns’1(f,t)}
なお、第2の雑音推定部112は、上記の例と異なる方法を用いて第2の推定雑音Ns’2(f,t)を推定してもよい。
第2の雑音推定部112は、第1の入力信号X1(f,t)に加えて第1の推定音声S’1(f,t)を用いることにより、第1の推定雑音Ns’1(f,t)より高精度にX1(f,t)に含まれる定常的な雑音成分Ns(f,t)を推定することができる。特に、第2の雑音推定部112は、式3に示す定常的な雑音成分の平均値Nsm(f,t)だけでなく、Ns(f,t)とNsm(f,t)との差分であるNsv(f,t)も含めて推定することができる。それは、第1の推定雑音Ns’1(f,t)が第1の推定音声S’1(f,t)より十分大きい場合にWI(f,t)が1に近い値をとり、そのWI(f,t)をNsv(f,t)が含まれる第1の入力信号X1(f,t)に乗じて、第2の推定雑音Ns’2(f,t)を得るためである。しかし、第2の推定雑音Ns’2(f,t)には、非定常的な雑音成分Nn(f,t)は含まれない。それは、第1の推定雑音Ns’1(f,t)において、非定常的な雑音成分を雑音とみなしていないためである。
次に、第3の雑音推定部113は、第2のマイク102から第2の入力信号を取得し(ステップS5)、第1の入力信号X1(f,t)と第2の入力信号X2(f,t)とを用いて、第3の推定雑音Nn’1(f,t)を求める(ステップS6)。
Nn’1(f,t)=H’(f,t)X2(f,t)
H’(f,t)=ave_{t}[X1(f,t)]/ave_{t}[X2(f,t)]
なお、H’(f,t)は式1に含まれるH(k,f,t)の推定値であり、上記の例で示した方法以外で推定してもよい。また、事前にH’(f,t)の値を求めることができる場合には、その値を使用してもよい。
第3の推定雑音Nn’1(f,t)は、第2の推定雑音Ns’2(f,t)が含んでいない非定常的な雑音成分を含んでいる。しかし、第1のマイク101からの第1の入力信号に含まれる定常的な雑音成分については、Ns(f,t)とその平均値Nsm(f,t)との差分Nsv(f,t)も含めて推定している第2の推定雑音Ns’2(f,t)の方が、第2の入力信号に基づく第3の推定雑音Nn’1(f,t)より高精度である。
次に、推定雑音統合部114は、第2の雑音推定部112から出力された第2の推定雑音Ns’2(f,t)と、第3の雑音推定部113から出力された第3の推定雑音Nn’1(f,t)とを用いて、第1の入力信号に含まれる定常的な雑音、非定常的な雑音を高精度に推定する(ステップS7)。そして、推定雑音統合部114は、推定した雑音を第4の推定雑音N’(f,t)として出力する。
N’(f,t)=(1−α(f,t)){βs(f,t)Ns’2(f,t)}+α(f,t){βn(f,t)Nn’1(f,t)}
ここで、α(f,t)はβs(f,t)Ns’2(f,t)とβn(f,t)Nn’1(f,t)との混合を制御する係数(以下、混合係数という。)である。また、βs(f,t)は定常的な雑音成分の推定値Ns’2(f,t)を微調整する係数(以下、調整係数という。)である。βn(f,t)は非定常的な雑音を含む雑音の推定値Nn’1(f,t)を微調整する調整係数である。βs(f,t)とβn(f,t)は通常は1.0という値が望ましいが、雑音を過大に推定したい場合は1.0より大きい値、過小に推定したい場合は1.0より小さい値に設定してもよい。混合係数α(f,t)は、非定常的な雑音が存在する場合に1.0に近い値を取り、非定常的な雑音が存在しない場合に0.0に近い値を取るようにすればよい。例えば、以下のようにすればよい。
α(f,t)=1.0 for βs(f,t)Ns’2(f,t) < βn(f,t)Nn’1(f,t)
α(f,t)=0.0 for βs(f,t)Ns’2(f,t) >= βn(f,t)Nn’1(f,t)
ただし、この場合は最大値をとる演算max[]を用いると、第4の推定雑音N’(f,t)は以下のようになる。
N’(f,t)=max[βs(f,t)Ns’2(f,t), βn(f,t)Nn’1(f,t)]
α(f,t)の計算方法の別の例として、βs(f,t)Ns’2(f,t)よりβn(f,t)Nn’1(f,t)の値が大きいほど、すなわち比{βn(f,t)Nn’1(f,t)/βs(f,t)Ns’2(f,t)}が大きいほどα(f,t)が1.0に近づき、小さいほどα(f,t)が0.0に近づくように、α(f,t)を算出する方法がある。なお、α(f,t)の計算方法は上記の例と異なる方法を用いてもよい。
最後に、第2の雑音除去部122は、第4の推定雑音N’(f,t)を用いて、第1の入力信号X1(f,t)に含まれる雑音を除去し(ステップS8)、雑音を除去した第1の入力信号X1(f,t)を第2の推定音声S’2(f,t)として出力する。このとき、第2の雑音除去部122は、第1の雑音除去部121と同様、以下の例に示す方法を用いることができる。
S’2(f,t)=W(f,t)X1(f,t)
W(f,t)=S’’2(f,t)/{S’’2(f,t)+N’(f,t)}
S’’2(f,t)=0.98×S’’2(f,t−1)+0.02×max[X1(f,t)−N’(f,t),0]
第2の推定音声S’2(f,t)の推定方法の別の例として、S’’2(f,t)を第2の推定音声S’2(f,t)に代入する方法がある。または、特許文献1に記載された方法と同様に、S’’2(f,t)を事前に学習した音声のパタンを用いて補正した後にW(f,t)を計算し、X1(f,t)に乗算することでS’2(f,t)を推定する。または、S’’2(f,t)を音声のパタンを用いて補正して、第2の推定音声としてS’2(f,t)に代入する方法がある。
なお、第2の雑音除去部122は、上記の例と異なる方法を用いて第2の推定音声S’2(f,t)を推定してもよい。
以上に説明したように、本実施形態では、定常的な雑音成分の高精度な推定値である第2の推定雑音Ns’2(f,t)と、第2のマイクからの第2の入力信号に基づく非定常的な雑音成分を含む雑音の推定値Nn’1(f,t)とを統合する。それにより、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分を高精度に推定することができる。また、本実施形態では、推定された当該定常的な雑音成分と当該非定常的な雑音成分とをもとに第1の入力信号から雑音を除去するので、高精度に雑音を除去することができる。
特許文献2に記載された方法における除去対象の非定常雑音成分は、マイクを介して入力されるCDプレーヤ等の再生音(CDプレーヤ等のスピーカからのエコー)である。特許文献2に記載された方法では、CDプレーヤ等から、音に変換される前の電気信号を参照信号として用いて非定常雑音成分を推定する。そのため、参照信号に含まれない非定常雑音成分は推定できず、除去できない。
それに対して、本実施形態では、マイクから入力された音声信号に基づいて非定常的な雑音成分を推定するため、第3の雑音推定部113が推定する非定常的な雑音成分にはスピーカから再生された非定常的な雑音成分に加えて、定常的な雑音成分やスピーカから再生されていない非定常的な雑音成分も含まれる。すなわち、第3の雑音推定部113は、定常的な雑音成分と非定常的な雑音成分との和から構成される非定常的な雑音成分(以下、第2の非定常的な雑音成分と表現する。)を推定する。従って、本実施形態によれば、スピーカから再生された非定常的な雑音成分に加えて、定常的な雑音成分やスピーカから再生されていない非定常的な雑音成分も除去できる。
実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
図3は、本発明の第2の実施形態の音声検出システムの構成を示すブロック図である。図4は、第2の実施形態の音声検出システムの他の構成を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。
図3に示すように、音声検出システムは、第1の実施形態の雑音除去システムの構成に加え、正規化部131と、音声検出部132とを備える。
正規化部131は、第2の雑音除去部122からの第2の推定音声S’2(f,t)を、第2の雑音推定部112からの第2の推定雑音Ns’2(f,t)を用いて正規化する。
音声検出部132は、正規化部131からの正規化音声を用いて音声を検出する。
なお、第2の実施形態における、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121、第2の雑音除去部122、正規化部131および音声検出部132は、例えば、音声検出プログラムに従って動作するコンピュータによって実現される。この場合、CPUが音声検出プログラムを読み込み、そのプログラムに従って、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121、第2の雑音除去部122、正規化部131および音声検出部132として動作する。また、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121、第2の雑音除去部122、正規化部131および音声検出部132が別々のハードウェアで実現されていてもよい。
音声検出システムのその他の構成および動作は、第1の実施形態の雑音除去システムと同様である。したがって、正規化部131および音声検出部132について説明する。
正規化部131は、第2の雑音除去部122からの第2の推定音声S’2(f,t)を第2の雑音推定部112からの第2の推定雑音Ns’2(f,t)を用いて正規化し、正規化音声Sn’(f,t)を出力する。式4に第2の推定音声S’2(f,t)の正規化の一例を示す。
Sn’(f,t)=S’2(f,t)/Ns’2(f,t) (式4)
上記のように正規化することにより、例えば、第1のマイク101の感度が異なり、第1の入力信号の音量が変化した場合においても、正規化音声Sn’(f,t)の値は変化しない。すなわち、Sn’(f,t)を用いて音声を検出する際に、検出閾値の設定が容易になる。また、式2で示す第2の入力信号の右辺第1項H0(f,t)S(f,t)(以降、クロストークと呼ぶ。)が無視できない場合、第4の推定雑音N’(f,t)ではなく、クロストークが含まれない第2の推定雑音Ns’2(f,t)で正規化することにより、Sn’(f,t)が音声区間でより大きな値となる。すなわち、Sn’(f,t)を用いて音声を検出する際に、より音声区間を高精度に検出できる。
なお、式4では周波数のインデックスfと時間のインデックスt毎に正規化し、正規化音声を出力しているが、周波数や時間で平均化してもよい。また、図4に示すように、正規化部131は、第2の推定雑音Ns’2(f,t)の代わりに同様にクロストークが含まれない第1の推定雑音Ns’1(f,t)を入力して、第1の推定雑音Ns’1(f,t)を用いて正規化してもよい。
また、以下の式に示すように、正規化に用いる第2の推定雑音Ns’2(f,t)や第1の推定雑音Ns’1(f,t)に対して、微量の非定常雑音を混入させてもよい。すなわち、当該微量の非定常雑音を混入した第2の推定雑音Ns’2(f,t)や第1の推定雑音Ns’1(f,t)を、正規化に用いてもよい。
Ns’2(f,t)=(1−γ(f,t))Ns’2(f,t)+γ(f,t)Nn’1(f,t)
Ns’1(f,t)=(1−γ(f,t))Ns’1(f,t)+γ(f,t)Nn’1(f,t)
ここで、γ(f,t)は、Ns’2(f,t)またはNs’1(f,t)への非定常雑音の混入度合いを制御する係数であり、1より小さい正の数である。例えば、Ns’2(f,t)を用いた場合に、γ(f,t)=0.01と設定すると、N’2(f,t)にはNn’1(f,t)に含まれる非定常雑音が1%混入する。非定常雑音の微量な推定誤差により式4のS’2(f,t)に微量な非定常雑音が残留した場合に、N’2(f,t)に非定常雑音を1%混入することによって、S’2(f,t)に残留した微量な非定常雑音の悪影響を軽減できる。特に、定常雑音が非定常雑音に比べて非常に小さい場合に、残留した微量な非定常雑音の悪影響が大きいため、微量な非定常雑音を混入する効果が大きい。非定常雑音を混入する際、同時に微量なクロストークが混入するが、その悪影響は小さい。なお、γ(f,t)は、非定常雑音の推定がより難しい低い周波数(fが小さい)ほど、大きな値に設定してもよい。また、定常雑音が非定常雑音に比べて小さいほど大きな値に設定してもよい。
次に、音声検出部132は、正規化部131からの正規化音声Sn’(f,t)を用いて音声を検出し、検出結果を出力する。検出結果の例を以下に示す。
検出結果=対象音声区間 for Sn’(t) >= Th
検出結果=非対象音声区間 for Sn’(t) < Th
ここで、Sn’(t)は、Sn’(f,t)を計算する際に周波数fに関して平均した後に計算した正規化音声である。時刻tにおいて、Sn’(t)が閾値Thより大きければ対象音声区間、閾値Thより小さければ対象音声区間ではないと判定する。
以上に説明したように、本実施形態では、高精度に雑音除去された第2の雑音除去部122からの第2の推定音声S’2(f,t)を、第2の雑音推定部112からの第2の推定雑音Ns’2(f,t)を用いて正規化する。それにより、音声検出部132における閾値の設定が容易になる。また、本実施形態では、クロストークが無視できない場合、第4の推定雑音N’(f,t)ではなく、クロストークが含まれない第2の推定雑音Ns’2(f,t)で正規化する。それにより、Sn’(f,t)が音声区間でより大きな値となる。すなわちSn’(f,t)を用いて音声を検出する際に、より音声区間を高精度に検出できる。
実施形態3.
以下、本発明の第3の実施形態を図面を参照して説明する。
図5は、本発明の第3の実施形態の音声認識システムの構成を示すブロック図である。なお、第2の実施形態と同様の構成については、図3と同一の符号を付し、説明を省略する。
図5に示すように、音声認識システムは、第2の実施形態の音声検出システムの構成に加え、音声認識部133を備える。
音声認識部133は、第1の雑音除去部121からの第1の推定音声S’1(f,t)と音声検出部132からの検出結果を受けて音声を認識する。
音声認識システムのその他の構成および動作は、第2の実施形態の音声検出システムと同様である。したがって、音声認識部133について説明する。
音声認識部133は、第1の雑音除去部121からの第1の推定音声S’1(f,t)と音声検出部132からの検出結果を受けて音声を認識し、音声認識結果を出力する。音声認識部133は、受け取った検出結果が対象音声区間の場合に、第1の雑音除去部121からの第1の推定音声S’1(f,t)を認識する。
このように、第2の雑音除去部122からの第2の推定音声S’2(f,t)ではなくクロストークの影響を受けていない第1の雑音除去部121からの第1の推定音声S’1(f,t)を音声認識部133の入力とすることにより、クロストークの影響による音声認識率の低下を防ぐことができる。
また、音声認識システムは、図6に示すように構成されていてもよい。図6は、第3の実施形態の音声認識システムの他の構成を示すブロック図である。
図6に示す音声認識システムは、図5に示す音声認識システムの構成に加え、第3の雑音除去部123を備える。
第3の雑音除去部123は、第1の入力信号とクロストークが含まれない第2の推定雑音Ns’2(f,t)を用いて、第1の雑音除去部121や第2の雑音除去部122と同様な手法で第3の推定音声を求める。そして、第3の雑音除去部123は、第3の推定音声を音声認識部133に出力する。
このように、クロストークの影響を受けていない第3の推定音声を音声認識部133の入力とすることにより、図5に示すシステムと同様にクロストークの影響による音声認識率の低下を防ぐことができる。
以上に説明したように、本実施形態では、第1の雑音除去部121からの第1の推定音声S’1(f,t)と音声検出部132からの検出結果とを受けて音声を認識し、音声認識結果を出力する。このように、音声検出部132からの高精度な検出結果とクロストークの影響を受けていない第1の雑音除去部121からの第1の推定音声S’1(f,t)とを音声認識部133の入力とすることにより、高い音声認識率を達成できる。
なお、第3の実施形態における、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121、第2の雑音除去部122、正規化部131、音声検出部132、音声認識部133および第3の雑音除去部123は、例えば、音声認識プログラムに従って動作するコンピュータによって実現される。この場合、CPUが音声認識プログラムを読み込み、そのプログラムに従って、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121、第2の雑音除去部122、正規化部131、音声検出部132、音声認識部133および第3の雑音除去部123として動作する。また、第1の雑音推定部111、第2の雑音推定部112、第3の雑音推定部113、推定雑音統合部114、第1の雑音除去部121、第2の雑音除去部122、正規化部131、音声検出部132、音声認識部133および第3の雑音除去部123が別々のハードウェアで実現されていてもよい。
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。
図7は、本発明による音声認識システムの実施例を示す説明図である。
図7に示す端末200は、本発明による音声認識システムを含む。端末200は、例えばタブレット端末であって、話者300は、端末200に設置されたタッチパネル201を操作する。なお、タッチパネル201が設置された側を端末200の表面とする。
話者300が発声した音声を第1のマイク101と第2のマイク102で収音する。第1のマイク101と第2のマイク102は話者の音声が第1のマイク101により大きく入力されるように配置することが望ましい。従って、本実施例では、図7に示すように、端末200の表面に第1のマイク101を配置する。そして、話者300の音声の直接音が第2のマイク102に入力されないように、端末200の裏面に第2のマイク102を配置する。
図7に示す例では、第1のマイク101には話者300の音声の直接音が入力されるが、第2のマイク102へは反射音と回折音しか入力されない。そのため、話者300の音声は第1のマイク101により大きく入力される。一方、雑音を発する空調機400やテレビ500からの雑音は、第2のマイク102により大きく入力されることが望ましい。
本実施例のように空調機400からの定常的な雑音、テレビ500からの非定常的な雑音が発せられた場合においても、本発明による音声認識システムは、高精度に音声を認識できる。その理由は、上述のとおり、音声認識システムが、第1のマイク101が出力する第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分を高精度に推定し、推定した当該定常的な雑音成分と当該非定常的な雑音成分とをもとに第1の入力信号から雑音を除去するからである。
なお、本実施例および第3の実施形態では、音声認識システムが第1のマイク101および第2のマイク102を備える場合について説明したが、音声認識システムは第1のマイク101および第2のマイク102を備えていなくてもよい。例えば、端末200が備えるマイクを第1のマイクおよび第2のマイクとして利用するようにしてもよい。また、第1の実施形態および第2の実施形態についても同様に、雑音除去システムおよび音声検出システムは、第1のマイク101および第2のマイク102を備えていなくてもよい。
以上、本発明を上記各実施形態および実施例に即して説明したが、本発明は、上記の各実施形態の構成のみに限定されるものでなく、本発明の原理に準ずる範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
また、本発明は、入力信号に含まれる雑音を除去できる雑音除去システムや、雑音除去システムをコンピュータに実現するためのプログラムといった用途に適用できる。
また、上記の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
(付記1)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する第2の雑音除去部と、第2の雑音除去部からの第2の推定音声を第2の雑音推定部からの第2の推定雑音または第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部とを備えることを特徴とする音声検出システム。
(付記2)推定雑音統合部は、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記1に記載の音声検出システム。
そのような構成によれば、調整係数を調整することにより、第2の推定雑音および第3の推定雑音を過大に推定したり、過小に推定したりすることができる。また、混合係数を制御することにより、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができる。従って、音声区間をより高精度に検出できる。
(付記3)推定雑音統合部は、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記1に記載の音声検出システム。
そのような構成によれば、混合係数を用いることなく、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができるので、高精度な音声検出をより簡易に行うことができる。
(付記4)入力した音声を第1の入力信号として出力する第1の音声入力装置と、入力した音声を第2の入力信号として出力する第2の音声入力装置とを備え、第1の音声入力装置に入力される雑音除去の対象となる音声が、第2の音声入力装置に入力される雑音除去の対象となる音声よりも大きい付記1から付記3のうちのいずれか1つに記載の音声検出システム。
そのような構成によれば、空調機からの定常的な雑音、テレビからの非定常的な雑音が発せられた場合においても、音声をより高精度に検出することができる。
(付記5)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、第2の雑音除去部からの第2の推定音声を第2の雑音推定部からの第2の推定雑音または第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第1の雑音除去部からの第1の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする音声認識システム。
(付記6)推定雑音統合部は、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記5に記載の音声認識システム。
そのような構成によれば、調整係数を調整することにより、第2の推定雑音および第3の推定雑音を過大に推定したり、過小に推定したりすることができる。また、混合係数を制御することにより、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができる。従って、音声区間をより高精度に検出できる。それにより、高い音声認識率を達成できる。
(付記7)推定雑音統合部は、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記5に記載の音声認識システム。
そのような構成によれば、混合係数を用いることなく、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができるので、より簡易に高い音声認識率を達成できる。
(付記8)入力した音声を第1の入力信号として出力する第1の音声入力装置と、入力した音声を第2の入力信号として出力する第2の音声入力装置とを備え、第1の音声入力装置に入力される雑音除去の対象となる音声が、第2の音声入力装置に入力される雑音除去の対象となる音声よりも大きい付記5から付記7のうちのいずれか1つに記載の音声認識システム。
そのような構成によれば、空調機からの定常的な雑音、テレビからの非定常的な雑音が発せられた場合においても、より高い音声認識率を達成できる。
(付記9)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、第1の入力信号と第1の雑音推定部からの第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、第1の入力信号と第1の雑音除去部からの第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、第2の雑音除去部からの第2の推定音声を第2の雑音推定部からの第2の推定雑音または第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第1の入力信号と第2の雑音推定部からの第2の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第3の推定音声を出力する第3の雑音除去部と、第3の雑音除去部からの第3の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする音声認識システム。
(付記10)推定雑音統合部は、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記9に記載の音声認識システム。
(付記11)推定雑音統合部は、第2の雑音推定部からの第2の推定雑音と第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記9に記載の音声認識システム。
(付記12)入力した音声を第1の入力信号として出力する第1の音声入力装置と、入力した音声を第2の入力信号として出力する第2の音声入力装置とを備え、第1の音声入力装置に入力される雑音除去の対象となる音声が、第2の音声入力装置に入力される雑音除去の対象となる音声よりも大きい付記9から付記11のうちのいずれか1つに記載の音声認識システム。
(付記13)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力し、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力し、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力し、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力し、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定し、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力することを特徴とする雑音除去方法。
(付記14)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記13に記載の雑音除去方法。
(付記15)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記13に記載の雑音除去方法。
(付記16)第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する付記13から付記15のうちのいずれか1つに記載の雑音除去方法。
(付記17)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力し、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力し、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力し、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力し、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定し、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力し、第2の推定音声を第2の推定雑音または第1の推定雑音で正規化した正規化音声を用いて音声を検出することを特徴とする音声検出方法。
(付記18)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記17に記載の音声検出方法。
(付記19)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記17に記載の音声検出方法。
(付記20)第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する付記17から付記19のうちのいずれか1つに記載の音声検出方法。
(付記21)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力し、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力し、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力し、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力し、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定し、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力し、第2の推定音声を第2の推定雑音または第1の推定雑音で正規化した正規化音声を用いて音声を検出し、第1の推定音声と検出結果とを受けて音声を認識することを特徴とする音声認識方法。
(付記22)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記21に記載の音声認識方法。
(付記23)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記21に記載の音声認識方法。
(付記24)第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する付記21から付記23のうちのいずれか1つに記載の音声認識方法。
(付記25)第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力し、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力し、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力し、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力し、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定し、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力し、第2の推定音声を第2の推定雑音または第1の推定雑音で正規化した正規化音声を用いて音声を検出し、第1の入力信号と第2の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第3の推定音声を出力し、第3の推定音声と検出結果とを受けて音声を認識することを特徴とする音声認識方法。
(付記26)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する付記25に記載の音声認識方法。
(付記27)第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する付記25に記載の音声認識方法。
(付記28)第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する付記25から付記27のうちのいずれか1つに記載の音声認識方法。
(付記29)コンピュータに、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する処理と、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する処理と、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する処理と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する処理と、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する処理とを実行させるための雑音除去プログラム。
(付記30)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理を実行させる付記29に記載の雑音除去プログラム。
(付記31)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する処理を実行させる付記29に記載の雑音除去プログラム。
(付記32)コンピュータに、第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する処理を実行させる付記29から付記31のうちのいずれか1つに記載の雑音除去プログラム。
(付記33)コンピュータに、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する処理と、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する処理と、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する処理と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する処理と、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する処理と、第2の推定音声を第2の推定雑音または第1の推定雑音で正規化した正規化音声を用いて音声を検出する処理とを実行させるための音声検出プログラム。
(付記34)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理を実行させる付記33に記載の音声検出プログラム。
(付記35)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する処理を実行させる付記33に記載の音声検出プログラム。
(付記36)コンピュータに、第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する処理を実行させる付記33から付記35のうちのいずれか1つに記載の音声検出プログラム。
(付記37)コンピュータに、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する処理と、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する処理と、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する処理と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する処理と、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する処理と、第2の推定音声を第2の推定雑音または第1の推定雑音で正規化した正規化音声を用いて音声を検出する処理と、第1の推定音声と音声の検出結果とを受けて音声を認識する処理とを実行させるための音声認識プログラム。
(付記38)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理を実行させる付記37に記載の音声認識プログラム。
(付記39)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する処理を実行させる付記37に記載の音声認識プログラム。
(付記40)コンピュータに、第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する処理を実行させる付記37から付記39のうちのいずれか1つに記載の音声認識プログラム。
(付記41)コンピュータに、第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する処理と、第1の入力信号と第1の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する処理と、第1の入力信号と第1の推定音声とを少なくとも用いて、第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する処理と、第1の入力信号と第2の入力信号とを用いて、第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する処理と、第2の推定雑音と第3の推定雑音とを用いて、第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理と、第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する処理と、第2の推定音声を第2の推定雑音または第1の推定雑音で正規化した正規化音声を用いて音声を検出する処理と、第1の入力信号と第2の推定雑音とを用いて、第1の入力信号から定常的な雑音成分を除去した第3の推定音声を出力する処理と、第3の推定音声と音声の検出結果とを受けて音声を認識するための音声認識プログラム。
(付記42)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音の大きさに応じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理を実行させる付記41に記載の音声認識プログラム。
(付記43)コンピュータに、第2の推定雑音と第3の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第2の推定雑音と調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより第1の入力信号に含まれる雑音を推定する処理を実行させる付記41に記載の音声認識プログラム。
(付記44)コンピュータに、第2の入力信号に含まれる雑音除去の対象音声に比べて第1の入力信号に含まれる雑音除去の対象音声が大きくなるように、第1の入力信号および第2の入力信号を入力する処理を実行させる付記41から付記43のうちのいずれか1つに記載の音声認識プログラム。
この出願は、2013年1月17日に出願された日本特許出願2013−006044を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
101 第1のマイク
102 第2のマイク
111 第1の雑音推定部
112 第2の雑音推定部
113 第3の雑音推定部
114 推定雑音統合部
121 第1の雑音除去部
122 第2の雑音除去部
123 第3の雑音除去部
131 正規化部
132 音声検出部
133 音声認識部
200 端末
201 タッチパネル
300 話者
400 空調機
500 テレビ
611 第1の雑音推定部
612 第2の雑音推定部
621 第1の雑音減衰部
622 第2の雑音減衰部
631 音声パタン記憶部

Claims (9)

  1. 第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、
    前記第1の入力信号と前記第1の雑音推定部からの第1の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、
    前記第1の入力信号と前記第1の雑音除去部からの第1の推定音声とを少なくとも用いて、前記第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、
    前記第1の入力信号と第2の入力信号とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、
    前記第2の雑音推定部からの第2の推定雑音と前記第3の雑音推定部からの第3の推定雑音とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、
    前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する第2の雑音除去部とを備える
    ことを特徴とする雑音除去システム。
  2. 前記推定雑音統合部は、前記第2の雑音推定部からの第2の推定雑音と前記第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、前記調整係数が乗じられた第2の推定雑音と前記調整係数が乗じられた第3の推定雑音の大きさに応じて、前記調整係数が乗じられた第2の推定雑音と前記調整係数が乗じられた第3の推定雑音とを混合するための混合係数を制御し、前記調整係数が乗じられた第2の推定雑音と前記調整係数が乗じられた第3の推定雑音にそれぞれの混合係数を乗じた後に加算することにより前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する
    請求項1に記載の雑音除去システム。
  3. 前記推定雑音統合部は、前記第2の雑音推定部からの第2の推定雑音と前記第3の雑音推定部からの第3の推定雑音にそれぞれ調整係数を乗じて、前記調整係数が乗じられた第2の推定雑音と前記調整係数が乗じられた第3の推定雑音のうち値が大きい方を選択することにより前記第1の入力信号に含まれる雑音を推定する
    請求項1に記載の雑音除去システム。
  4. 入力した音声を第1の入力信号として出力する第1の音声入力装置と、入力した音声を第2の入力信号として出力する第2の音声入力装置とを備え、
    前記第1の音声入力装置に入力される雑音除去の対象となる音声が、前記第2の音声入力装置に入力される雑音除去の対象となる音声よりも大きい
    請求項1から請求項3のうちのいずれか1項に記載の雑音除去システム。
  5. 第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、
    前記第1の入力信号と前記第1の雑音推定部からの第1の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、
    前記第1の入力信号と前記第1の雑音除去部からの第1の推定音声とを少なくとも用いて、前記第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、
    前記第1の入力信号と第2の入力信号とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、
    前記第2の雑音推定部からの第2の推定雑音と前記第3の雑音推定部からの第3の推定雑音とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、
    前記第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、
    前記第2の雑音除去部からの第2の推定音声を前記第2の雑音推定部からの第2の推定雑音または前記第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、
    前記正規化部からの正規化音声を用いて音声を検出する音声検出部とを備える
    ことを特徴とする音声検出システム。
  6. 第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、
    前記第1の入力信号と前記第1の雑音推定部からの第1の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、
    前記第1の入力信号と前記第1の雑音除去部からの第1の推定音声とを少なくとも用いて、前記第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、
    前記第1の入力信号と第2の入力信号とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、
    前記第2の雑音推定部からの第2の推定雑音と前記第3の雑音推定部からの第3の推定雑音とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、
    前記第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、
    前記第2の雑音除去部からの第2の推定音声を前記第2の雑音推定部からの第2の推定雑音または前記第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、
    前記正規化部からの正規化音声を用いて音声を検出する音声検出部と、
    前記第1の雑音除去部からの第1の推定音声と前記音声検出部からの検出結果を受けて音声を認識する音声認識部とを備える
    ことを特徴とする音声認識システム。
  7. 第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する第1の雑音推定部と、
    前記第1の入力信号と前記第1の雑音推定部からの第1の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する第1の雑音除去部と、
    前記第1の入力信号と前記第1の雑音除去部からの第1の推定音声とを少なくとも用いて、前記第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する第2の雑音推定部と、
    前記第1の入力信号と第2の入力信号とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する第3の雑音推定部と、
    前記第2の雑音推定部からの第2の推定雑音と前記第3の雑音推定部からの第3の推定雑音とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する推定雑音統合部と、
    前記第1の入力信号から定常的な雑音成分と第2の非定常的な雑音成分を除去した第2の推定音声を出力する第2の雑音除去部と、
    前記第2の雑音除去部からの第2の推定音声を前記第2の雑音推定部からの第2の推定雑音または前記第1の雑音推定部からの第1の推定雑音で正規化する正規化部と、
    前記正規化部からの正規化音声を用いて音声を検出する音声検出部と、
    前記第1の入力信号と前記第2の雑音推定部からの第2の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第3の推定音声を出力する第3の雑音除去部と、
    前記第3の雑音除去部からの第3の推定音声と前記音声検出部からの検出結果を受けて音声を認識する音声認識部とを備える
    ことを特徴とする音声認識システム。
  8. 第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力し、
    前記第1の入力信号と第1の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力し、
    前記第1の入力信号と第1の推定音声とを少なくとも用いて、前記第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力し、
    前記第1の入力信号と第2の入力信号とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力し、
    第2の推定雑音と第3の推定雑音とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定し、
    前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する
    ことを特徴とする雑音除去方法。
  9. コンピュータに、
    第1の入力信号に含まれる定常的な雑音成分を推定し、第1の推定雑音を出力する処理と、
    前記第1の入力信号と第1の推定雑音とを用いて、前記第1の入力信号から定常的な雑音成分を除去した第1の推定音声を出力する処理と、
    前記第1の入力信号と第1の推定音声とを少なくとも用いて、前記第1の入力信号に含まれる定常的な雑音成分を再推定し、第2の推定雑音を出力する処理と、
    前記第1の入力信号と第2の入力信号とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第2の非定常的な雑音成分を推定し、第3の推定雑音を出力する処理と、
    第2の推定雑音と第3の推定雑音とを用いて、前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を推定する処理と、
    前記第1の入力信号に含まれる定常的な雑音成分と第2の非定常的な雑音成分を除去する処理とを実行させる
    ための雑音除去プログラム。
JP2014557199A 2013-01-17 2013-12-25 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム Active JP6265136B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013006044 2013-01-17
JP2013006044 2013-01-17
PCT/JP2013/007573 WO2014112023A1 (ja) 2013-01-17 2013-12-25 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム

Publications (2)

Publication Number Publication Date
JPWO2014112023A1 true JPWO2014112023A1 (ja) 2017-01-19
JP6265136B2 JP6265136B2 (ja) 2018-01-24

Family

ID=51209149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014557199A Active JP6265136B2 (ja) 2013-01-17 2013-12-25 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム

Country Status (3)

Country Link
US (1) US9449616B2 (ja)
JP (1) JP6265136B2 (ja)
WO (1) WO2014112023A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US10535360B1 (en) * 2017-05-25 2020-01-14 Tp Lab, Inc. Phone stand using a plurality of directional speakers
WO2019187841A1 (ja) * 2018-03-30 2019-10-03 パナソニックIpマネジメント株式会社 騒音低減装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667691A (ja) * 1992-08-18 1994-03-11 Nec Corp 雑音除去装置
JP2000163099A (ja) * 1998-11-25 2000-06-16 Brother Ind Ltd 雑音除去装置、音声認識装置および記憶媒体
JP2003195882A (ja) * 2001-12-21 2003-07-09 Fujitsu Ltd 信号処理システムおよび方法
JP2006163231A (ja) * 2004-12-10 2006-06-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、雑音除去プログラム、及び雑音除去方法
WO2009028349A1 (ja) * 2007-08-27 2009-03-05 Nec Corporation 特定信号消去方法、特定信号消去装置、適応フィルタ係数更新方法、適応フィルタ係数更新装置及びコンピュータプログラム
JP2009075536A (ja) * 2007-08-28 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP2013506878A (ja) * 2009-10-01 2013-02-28 クゥアルコム・インコーポレイテッド オーディオ信号の雑音抑制

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193517A (ja) 2006-01-18 2007-08-02 Sharp Corp 電波方式認識を用いた搭載部品チェックシステム、搭載部品チェック方法、搭載部品チェックプログラム、および搭載部品チェックプログラムを格納した記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667691A (ja) * 1992-08-18 1994-03-11 Nec Corp 雑音除去装置
JP2000163099A (ja) * 1998-11-25 2000-06-16 Brother Ind Ltd 雑音除去装置、音声認識装置および記憶媒体
JP2003195882A (ja) * 2001-12-21 2003-07-09 Fujitsu Ltd 信号処理システムおよび方法
JP2006163231A (ja) * 2004-12-10 2006-06-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、雑音除去プログラム、及び雑音除去方法
WO2009028349A1 (ja) * 2007-08-27 2009-03-05 Nec Corporation 特定信号消去方法、特定信号消去装置、適応フィルタ係数更新方法、適応フィルタ係数更新装置及びコンピュータプログラム
JP2009075536A (ja) * 2007-08-28 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
JP2013506878A (ja) * 2009-10-01 2013-02-28 クゥアルコム・インコーポレイテッド オーディオ信号の雑音抑制
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム

Also Published As

Publication number Publication date
US9449616B2 (en) 2016-09-20
WO2014112023A1 (ja) 2014-07-24
JP6265136B2 (ja) 2018-01-24
US20150356983A1 (en) 2015-12-10

Similar Documents

Publication Publication Date Title
EP3276621B1 (en) Noise suppression device and noise suppressing method
US8824700B2 (en) Multi-input noise suppression device, multi-input noise suppression method, program thereof, and integrated circuit thereof
CN106575511B (zh) 用于估计背景噪声的方法和背景噪声估计器
JP6265136B2 (ja) 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
US8675901B2 (en) Howling suppression device, hearing aid, howling suppression method, and integrated circuit
CN112272848B (zh) 使用间隙置信度的背景噪声估计
JP2009075536A (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
US20140321655A1 (en) Sensitivity Calibration Method and Audio Device
US20130156221A1 (en) Signal processing apparatus and signal processing method
US8259961B2 (en) Audio processing apparatus and program
WO2012176932A1 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US8270624B2 (en) Noise cancelling device and method, and noise cancelling program
EP3288030B1 (en) Gain adjustment apparatus and gain adjustment method
WO2011055832A1 (ja) 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム
WO2012070684A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6716933B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
US10607628B2 (en) Audio processing method, audio processing device, and computer readable storage medium
JP4395105B2 (ja) 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6361360B2 (ja) 残響判定装置及びプログラム
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
JP6720772B2 (ja) 信号処理装置、信号処理方法、及び、信号処理プログラム
CN115280412A (zh) 声学回声消除器中回声路径改变的宽带适应性改变
JP2003177783A (ja) 音声認識装置、音声認識方式及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171211

R150 Certificate of patent or registration of utility model

Ref document number: 6265136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150