JPWO2011004503A1 - Noise removing apparatus and noise removing method - Google Patents

Noise removing apparatus and noise removing method Download PDF

Info

Publication number
JPWO2011004503A1
JPWO2011004503A1 JP2011521766A JP2011521766A JPWO2011004503A1 JP WO2011004503 A1 JPWO2011004503 A1 JP WO2011004503A1 JP 2011521766 A JP2011521766 A JP 2011521766A JP 2011521766 A JP2011521766 A JP 2011521766A JP WO2011004503 A1 JPWO2011004503 A1 JP WO2011004503A1
Authority
JP
Japan
Prior art keywords
noise
sound
internal noise
generated
noise removal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011521766A
Other languages
Japanese (ja)
Other versions
JP5382745B2 (en
Inventor
真人 戸上
真人 戸上
洋平 川口
洋平 川口
浩明 小窪
浩明 小窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2011004503A1 publication Critical patent/JPWO2011004503A1/en
Application granted granted Critical
Publication of JP5382745B2 publication Critical patent/JP5382745B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Manipulator (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

複数のマイクロホンから構成されるマイクアレイによって収集された音から雑音を除去する雑音除去装置であって、マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、雑音除去装置は、マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成し、AD変換装置によって変換されたデジタル信号に各々の雑音抑圧フィルタを作用させ、雑音が除去されたデジタル信号の音量が最も小さくなる雑音抑圧フィルタを選択し、選択された雑音抑圧フィルタを用いて、AD変換装置から入力されたデジタル信号から雑音を除去することを特徴とする。A noise removing device that removes noise from sound collected by a microphone array composed of a plurality of microphones, wherein the sound collected by the microphone array is input as an analog signal to the noise removing device, A plurality of the noise suppression filters are generated based on the noise included in the sound collected by the microphone array, and each noise suppression filter is applied to the digital signal converted by the AD converter to remove the noise. A noise suppression filter that minimizes the volume of the digital signal is selected, and noise is removed from the digital signal input from the AD converter using the selected noise suppression filter.

Description

本発明は、複数のマイクロホンを用いて収集された音の中から、特定の音のみ抽出する雑音抑圧技術に関する。   The present invention relates to a noise suppression technique for extracting only a specific sound from sounds collected using a plurality of microphones.

一般に、複数のマイクロホンを用いて収集された音の中から、特定の方向の音を抽出する技術として、最小分散ビームフォーマ法(例えば、O.L.Frost,III,“Analgorithm for linearly constrained adaptive array processing,“In Proc.IEEE,vol.60,no.8,pp.926−935,1972.参照)などがある。最小分散ビームフォーマ法は、複数のマイクロホンから入力される入力信号に対して、空間的な指向特性を持つ線形フィルタを作用させることによって、特定方向の信号(音)のみ抽出する技術である。
しかし、最小分散ビームフォーマ法では、ロボット内部のアクチュエータの動作音などの内部から到来する雑音に対しては、アクチュエータの動作状態に応じて空間的な音源位置が時々刻々変化するため、空間的な死角を精度良く構成することが困難となり、抑圧性能が低いという問題があった。
また、単一マイクロホンでも適用可能なスペクトルサブトラクション法という雑音抑圧方式がある(例えば、S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.ASSP,Vol.27,No.2,pp.113−120,1979.参照)。スペクトルサブトラクション法は、空間的な指向特性を用いて雑音を除去するのではなく、雑音の統計量を推定し、比較的振幅特性が定常な雑音を除去する技術である。
しかし、スペクトルサブトラクション法では、雑音の振幅特性が非定常な雑音である場合、除去性能が劣化するだけでなく、取得したい音声が大きく劣化する。例えば、ロボット内部のアクチュエータの動作音は、アクチュエータの動作状態によって音質が変化する非定常な雑音であるため、前述した問題が生じる。
In general, as a technique for extracting a sound in a specific direction from sounds collected using a plurality of microphones, a minimum dispersion beamformer method (for example, OL Forst, III, “Analgorithm for linearly aligned adaptive array”). processing, "In Proc. IEEE, vol. 60, no. 8, pp. 926-935, 1972.). The minimum dispersion beamformer method is a technique for extracting only a signal (sound) in a specific direction by applying a linear filter having spatial directivity to input signals input from a plurality of microphones.
However, with the minimum dispersion beamformer method, the spatial sound source position changes from moment to moment according to the operating state of the actuator for noise coming from inside such as the operating noise of the actuator inside the robot. There was a problem that it was difficult to configure the blind spot with high accuracy and the suppression performance was low.
In addition, there is a noise suppression method called a spectral subtraction method that can be applied to a single microphone (for example, SF Boll, “Suppression of acoustic noise in spectral subtraction,” IEEE Trans. ASSP, Vol. 27, No. 27). 2, pp. 113-120, 1979.). The spectral subtraction method is a technique for estimating noise statistics and removing noise with relatively steady amplitude characteristics, instead of removing noise using spatial directivity characteristics.
However, in the spectral subtraction method, when the amplitude characteristic of noise is non-stationary noise, not only the removal performance is degraded, but also the voice to be acquired is greatly degraded. For example, the operation sound of the actuator inside the robot is a non-stationary noise whose sound quality changes depending on the operation state of the actuator, and thus the above-described problem occurs.

ロボットのアクチュエータ動作音など、ロボット内部で生じる音源位置や音源の振幅特性が時々刻々と変化する非定常な雑音を高精度に除去することが課題である。
本発明の代表的な一例を示せば以下の通りである。すなわち、複数のマイクロホンから構成されるマイクアレイによって収集された音から雑音を除去する雑音除去装置であって、前記マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、前記雑音除去装置は、マイクロプロセッサと、前記マイクロプロセッサに接続される記憶装置と、前記マイクロプロセッサに接続されるメモリと、前記マイクロプロセッサに接続され、前記アナログ信号をデジタル信号に変換するAD変換装置と、を備え、前記記憶装置は、前記マイクアレイによって収集された音に含まれる雑音を除去するための雑音抑圧フィルタを生成する雑音抑圧フィルタ生成プログラムと、前記雑音抑圧フィルタを用いて、前記マイクアレイによって収集された音に含まれる雑音を除去する雑音除去プログラムとを格納し、前記雑音除去装置は、前記マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成し、前記AD変換装置によって変換されたデジタル信号に前記各々の雑音抑圧フィルタを作用させ、雑音が除去されたデジタル信号の音量が最も小さくなる前記雑音抑圧フィルタを選択し、前記選択された雑音抑圧フィルタを用いて、前記AD変換装置から入力されたデジタル信号から雑音を除去することを特徴とする。
本発明によれば、雑音の属性に応じて、正確に雑音を除去することが可能となる。
The problem is to remove with high accuracy non-stationary noise, such as the actuator operating sound of the robot, that changes the position of the sound source generated inside the robot and the amplitude characteristics of the sound source.
A typical example of the present invention is as follows. That is, a noise removing device that removes noise from sound collected by a microphone array composed of a plurality of microphones, wherein the sound collected by the microphone array is input to the noise removing device as an analog signal, The noise removing device includes a microprocessor, a storage device connected to the microprocessor, a memory connected to the microprocessor, an AD converter connected to the microprocessor and converting the analog signal into a digital signal, The storage device includes a noise suppression filter generation program for generating a noise suppression filter for removing noise included in the sound collected by the microphone array, and the microphone array using the noise suppression filter. Noise to remove noise contained in the sound collected by The noise removal device generates a plurality of the noise suppression filters based on the noise included in the sound collected by the microphone array, and converts the noise into a digital signal converted by the AD conversion device. Each of the noise suppression filters is operated to select the noise suppression filter that minimizes the volume of the digital signal from which noise has been removed, and is input from the AD converter using the selected noise suppression filter It is characterized by removing noise from a digital signal.
According to the present invention, noise can be accurately removed in accordance with noise attributes.

図1は、本発明の第1の実施形態の内部雑音除去装置のハードウェア構成のブロック図である。
図2は、本発明の第1の実施形態の記憶装置に格納されたプログラムの一例のブロック図である。
図3は、本発明の内部雑音除去装置が実行する処理の一例のブロック図である。
図4は、本発明の第1の実施形態の内部雑音除去処理の詳細のブロック図である。
図5は、本発明の第1の実施形態の内部雑音シグナルの一例を示す説明図である。
図6は、本発明の第1の実施形態の内部雑音の種類の一例を示す説明図である。
図7は、本発明の第1の実施形態における3つのアクチュエータの動作状態に応じた内部雑音シグナルの種類を定義する一例のタイミングチャートである。
図8は、本発明の第1の実施形態のパワー最小化フィルタリングの処理のフローチャートである。
図9は、本発明の第1の実施形態における目的音共分散更新、雑音抑圧フィルタ更新、雑音共分散行列選択、及び内部雑音の発生状況の一例のタイミングチャートである。
図10は、本発明の第1の実施形態の雑音共分散推定処理の詳細を説明するブロック図である。
図11は、本発明の第1の実施形態のベクトルVq,j(z,τ)のデータ構造を示す説明図である。
図12は、本発明の第1の実施形態のクラスタリングにおける処理の詳細のフローチャートである。
図13は、本発明の第2の実施形態の音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
図14は、本発明の第2の実施形態のキーボードの操作音に対応する内部雑音シグナルの一例を示す説明図である。
図15は、本発明の第2の実施形態の各装置が実行する処理のブロック図である。
図16は、本発明の第2の実施形態の音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
図17は、本発明の第3の実施形態のタッチパネルを備える音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
図18は、本発明の第3の実施形態のタッチパネルの操作音に対応する内部雑音シグナルの一例を示す説明図である。
図19は、本発明の第3の実施形態のタッチパネルを備える音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
図20は、本発明の第4の実施形態の内部雑音除去処理を含む音声認識の処理の構成のブロック図である。
図21は、本発明の第5の実施形態の実施形態の内部雑音除去処理の詳細のブロック図である。
図22は、本発明の第1の実施形態のインデックスInd(j,τ)の一例を示す説明図である。
図23は、本発明における音声認識機能を備えるロボットの一例を示す説明図である。
図24は、本発明におけるプロジェクタを備えるビデオ会議システムの機器構成を示す説明図である。
図25は、本発明におけるプロジェクタから発生する雑音の一例を示す説明図である。
FIG. 1 is a block diagram of a hardware configuration of an internal noise removal apparatus according to the first embodiment of the present invention.
FIG. 2 is a block diagram of an example of a program stored in the storage device according to the first embodiment of this invention.
FIG. 3 is a block diagram showing an example of processing executed by the internal noise removal apparatus of the present invention.
FIG. 4 is a detailed block diagram of the internal noise removal processing according to the first embodiment of this invention.
FIG. 5 is an explanatory diagram illustrating an example of an internal noise signal according to the first embodiment of this invention.
FIG. 6 is an explanatory diagram illustrating an example of types of internal noise according to the first embodiment of this invention.
FIG. 7 is an example timing chart that defines the types of internal noise signals corresponding to the operating states of the three actuators according to the first embodiment of the present invention.
FIG. 8 is a flowchart of power minimization filtering processing according to the first embodiment of this invention.
FIG. 9 is a timing chart showing an example of the target sound covariance update, noise suppression filter update, noise covariance matrix selection, and internal noise generation status in the first embodiment of the present invention.
FIG. 10 is a block diagram illustrating details of the noise covariance estimation process according to the first embodiment of this invention.
FIG. 11 is an explanatory diagram illustrating a data structure of the vector V q, j (z, τ) according to the first embodiment of this invention.
FIG. 12 is a flowchart illustrating details of processing in clustering according to the first embodiment of this invention.
FIG. 13 is a block diagram of a hardware configuration of an internal noise removal device in the audio conference system according to the second embodiment of this invention.
FIG. 14 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the keyboard according to the second embodiment of this invention.
FIG. 15 is a block diagram of processing executed by each device according to the second embodiment of this invention.
FIG. 16 is an explanatory diagram illustrating an example of a user use scene in the audio conference system according to the second embodiment of this invention.
FIG. 17 is a block diagram of a hardware configuration of an internal noise removing device in an audio conference system including a touch panel according to the third embodiment of the present invention.
FIG. 18 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the touch panel according to the third embodiment of this invention.
FIG. 19 is an explanatory diagram illustrating an example of a user use scene in the audio conference system including the touch panel according to the third embodiment of this invention.
FIG. 20 is a block diagram of a configuration of speech recognition processing including internal noise removal processing according to the fourth embodiment of this invention.
FIG. 21 is a block diagram showing details of the internal noise removal processing according to the fifth embodiment of the present invention.
FIG. 22 is an explanatory diagram illustrating an example of the index Ind (j, τ) according to the first embodiment of this invention.
FIG. 23 is an explanatory diagram showing an example of a robot having a voice recognition function according to the present invention.
FIG. 24 is an explanatory diagram showing a device configuration of a video conference system including a projector according to the present invention.
FIG. 25 is an explanatory diagram showing an example of noise generated from the projector in the present invention.

本発明は、音声認識機能を備えるロボットやプロジェクタを備えるビデオ会議システムのように、音声収録機能を備えるシステムにおいて、アクチュエータ等から発生する雑音を効率的に除去するものである。
図23は、本発明における音声認識機能を備えるロボットの一例を示す説明図である。
本発明の雑音除去機構は、例えば、図23に示すような音声認識機能を備えるロボット2201に実装される。
ロボット2201は、ロボット2201の腕を制御するための腕制御アクチュエータ2202と、ロボット2201の脚を制御するための脚制御アクチュエータ2203とを備える。また、ロボット2201は、当該ロボット2201と対話するユーザの音声を認識するための音声認識用マイクロホンアレイ2204を備える。
通常、音声認識では、周りの音が一切混入していないユーザ音声のみがマイクロホンアレイ2204によって収集される。したがって、周りの音が混入した音がマイクロホンアレイ2204によって収集された場合、音声認識の性能が劣化することが知られている。
図23に示すロボット2201においては、腕制御アクチュエータ2202及び脚制御アクチュエータ2203の動作音が含まれるユーザ音声がマイクロホンによって収集される。
また、腕制御アクチュエータ2202及び脚制御アクチュエータ2203の動作音は、腕や脚が移動することによって、動作音が発生する位置が変化する。また、腕制御アクチュエータ2202及び脚制御アクチュエータ2203の動作音は、各アクチュエータの動作開始、動作中、又は動作終了時にも変化する。
本発明では、アクチュエータの動作音など機器の内部で発生する音を効率良く除去する。
図24は、本発明におけるプロジェクタを備えるビデオ会議システムの機器構成を示す説明図である。
拠点Aでは、マイクアレイ2301によって拠点Aで発話した人の音声が収集され、収集された音声の情報が計算機2305に送信される。
計算機2305は、マイクアレイ2301によって収集された音の中から拠点Aで発話した人の声だけを抽出し、ネットワーク2306を介して、抽出された音声を他の拠点Bに送信する。また、拠点Aのカメラ2304によって撮影された拠点Aの風景も同様に拠点Bに送信される。
拠点Bでは、受信した音声やカメラ2304で撮影された画像が計算機2305に取り込まれる。カメラ2304によって撮影された画像は、プロジェクタ2303に投影される。受信した音声は、スピーカ2302で再生される。
同様に拠点Bに設置されたマイクアレイ2301によって収集された音声及びカメラ2304によって撮影された画像は、計算機2305に取り込まれた後、ネットワーク2306を介して、拠点Aに送信される。
拠点Aでは、拠点Bの場合と同様に、カメラ2304によって撮影された画像がプロジェクタ2303に投影され、受信した音声がスピーカ2302で再生される。
図24に示す会議システムにおいて、プロジェクタ2303から発生するファンノイズなどの雑音が、マイクアレイ2301によって収集される音に混入するという問題がある。
図25は、本発明におけるプロジェクタ2303から発生する雑音の一例を示す説明図である。
プロジェクタ2303から発生する雑音は、プロジェクタ2303が動作するタイミング毎に固有の音が発生する。プロジェクタ2303から発生する各雑音には、発生タイミング2410に対応し、動作音名称2400が定義される。動作音名称2400は、プロジェクタ2303から発生する雑音を識別するための識別子である。発生タイミング2410は、動作音名称2400に対応する雑音が発生するタイミングを示す。
図25に示す例では、動作音名称2400として「プロジェクタ起動音」及び「プロジェクタ動作音」がある。また、「プロジェクタ起動音」の発生タイミング2410は「プロジェクタ起動時」であり、「プロジェクタ動作音」の発生タイミング2410は「プロジェクタ動作時」である。
以下の説明において、前述したようなロボット2201のアクチュエータの動作音やプロジェクタ2303のファンノイズなど機器内部で発生する内部雑音を除去するための構成及び方法について説明する。
第1の実施形態
図1は、本発明の第1の実施形態の内部雑音除去装置のハードウェア構成のブロック図である。
第1の実施形態では、内部雑音除去装置100、マイクアレイ101、アクチュエータ制御装置104、及びアクチュエータ105を備える機器について説明する。
内部雑音除去装置100は、AD変換装置102、中央演算装置103、記憶装置106、及び揮発性メモリ107を備える。
AD変換装置102は、入力されたアナログ信号を中央演算装置103が処理可能なデジタル信号に変換する。図1に示す例では、マイクアレイ101から入力されたアナログ信号がAD変換装置102に入力される。
中央演算装置103は、揮発性メモリ107に展開された各種プログラムを実行する。具体的には、中央演算装置103は、AD変換装置102によってデジタル変換された後のデジタル信号から内部雑音を除去し、所望の音声(以下、内部雑音除去音と記載する)のみを抽出する。抽出された内部雑音除去音は、外部の内部雑音除去音を再生する装置(図示省略)に出力され、当該装置によって再生される。
記憶装置106は、内部雑音を除去するためのプログラムや、内部雑音に関するデータを格納する。記憶装置106に格納されるプログラムについては、図2を用いて後述する。揮発性メモリ107は、プログラム実行中のワークメモリを確保するために用いられる。
アクチュエータ制御装置104は、アクチュエータ105を制御する装置である。例えば、音声認識装置を備えるロボット2201の腕や足に設置されたアクチュエータ(腕制御アクチュエータ2202及び脚制御アクチュエータ2203)を制御する。アクチュエータ制御装置104は、アクチュエータ制御信号に基づいてアクチュエータ105を制御する。
アクチュエータ105は、例えば、音声認識装置を備えるロボット2201の腕や足などに設置されたアクチュエータ(腕制御アクチュエータ2202及び脚制御アクチュエータ2203)である。アクチュエータ105が動作するときに発生する音が伝搬し、マイクアレイ101によって収集される。
なお、マイクアレイ101によって収集される音は、音声処理アプリケーション(図示省略)が必要とする所望の音とアクチュエータが動作するときに発生する雑音(以下、内部雑音と記載する)とが混在する。
なお、内部雑音除去装置100は、マイクアレイ101、アクチュエータ制御装置104、及びアクチュエータ105の少なくとも一つを備えてもよい。また、AD変換装置102又は記憶装置106は、内部雑音除去装置100の外部に備わってもよい。
図2は、本発明の第1の実施形態の記憶装置106に格納されたプログラムの一例のブロック図である。
記憶装置106は、共分散行列学習プログラム1061、及び雑音抑圧プログラム1062を格納する。
共分散行列学習プログラム1061は、雑音抑圧フィルタを生成するために用いられる共分散行列を生成するためのプログラムである。雑音抑圧プログラム1062は、マイクアレイ101によって収集された音に対して最適な雑音抑圧フィルタを選択し、内部雑音を除去するためのプログラムである。
なお、記憶装置106は、他のプログラムを格納してもよい。
図3は、本発明の内部雑音除去装置100が実行する処理の一例のブロック図である。
内部雑音除去装置100は、雑音共分散推定処理301と内部雑音除去処理303とを実行する。具体的には、中央演算装置103が共分散行列学習プログラム1061を実行することによって、雑音共分散推定処理301が実行される。また、中央演算装置103が雑音抑圧プログラム1062を実行することによって、内部雑音除去処理303が実行される。
雑音共分散推定処理301は、雑音共分散行列を算出するための処理である。具体的には、内部雑音に関する情報を含む内部雑音シグナルが中央演算装置103に入力され、入力された内部雑音シグナルに基づいて雑音共分散行列が算出される。なお、内部雑音シグナルに含まれる内部雑音に関する情報には、内部雑音の種類及び内部雑音が発生したタイミング等の内部雑音の属性に関する情報が含まれる。
雑音共分散推定処理301は、内部雑音の属性毎に、当該内部雑音の統計量(雑音共分散行列)を算出する処理である。なお、具体的な雑音共分散行列の算出方法は、図10を用いて後述する。
算出された雑音共分散行列は、揮発性メモリ107又は記憶装置106に格納される。以下、揮発性メモリ107又は記憶装置106に格納されている雑音共分散行列を雑音共分散行列DB302と記載する。
内部雑音除去装置100は、予め収集された内部雑音に対して、雑音共分散推定処理301を実行する、いわゆるキャリブレーション処理をしておくことが望ましい。
内部雑音除去処理303は、マイクアレイ101によって収集された内部雑音と目的とする音とが混在した音から内部雑音を除去するための処理である。
具体的には、内部雑音除去装置100が、実際にマイクアレイ101によって収集された内部雑音と目的とする音とが混在した音に対して、雑音共分散行列DB302を用いて内部雑音を除去し、目的音のみが抽出された音を出力する。なお、内部雑音除去処理303の詳細は、図4を用いて後述する。
図4は、本発明の第1の実施形態の内部雑音除去処理303の詳細のブロック図である。
内部雑音除去処理303は、多チャンネル周波数分析401、目的音共分散更新403、雑音抑圧フィルタ更新404、雑音抑圧フィルタリング405、雑音共分散行列選択406、及びパワー最小化フィルタリング408を含み、各処理は、中央演算装置103によって実行される。
デジタル化された入力信号を各チャンネル毎に、一定サンプル(フレームシフト:Lshift)得られる度に内部雑音除去処理303が実行される。なお、本実施形態においては、Lshiftは数十ms程度の時間長に設定する。
例えば、AD変換装置102のサンプリングレートが8kHzの場合、Lshiftは256ポイント程度に設定する。以下、一定のフレームシフト量のサンプルが得られる度に実行される処理をフレーム処理と記載する。
1つのフレーム処理では、各マイクロホンから入力される入力信号毎に、当該入力信号が入力された時点の過去フレームサイズのサンプル(Lframe)に対して処理が実行される。ここで、フレーム番号を表すインデックスをτとする。
τフレームでは、マイクロホン毎に、(τ×Lshift)ポイントから(τ×Lshift+Lframe−1)ポイント目までのデジタル信号が処理される。ここで、pは、τフレーム目の先頭ポイントからのポイント数を表すインデックスとする。
内部雑音除去装置100には、m番目のマイクロホンから式(1)で示す入力信号が入力される。

Figure 2011004503
まず、多チャンネル周波数分析401では、内部雑音除去装置100が、各マイクロホンから入力された入力信号のうちp=0からp=Lframe−1ポイントのデータに対して、式(2)で示す離散フーリエ変換を実行する。
Figure 2011004503
式(2)によって、各マイクロホンの時間周波数領域信号x(f,τ)が得られる。ここで、fは周波数を表し、窓関数w(p)は、例えば、式(3)で示すようなハニング窓のようなものとする。
Figure 2011004503
なお、離散フーリエ変換は、高速フーリエ変換のようなアルゴリズムを用いてもよい。
各マイクロホン毎の時間周波数領域信号は、式(4)に示すように周波数毎にまとめられて処理される。
Figure 2011004503
ここで、Mはマイクロホン数とする。Tはベクトル又は行列の転置を表す演算子とする。
以下、内部雑音除去装置100は、式(4)に示すような各周波数毎まとめられた信号に対して、目的音共分散更新403、雑音抑圧フィルタ更新404、雑音抑圧フィルタリング405、雑音共分散行列選択406、及びパワー最小化フィルタリング408を実行する。
目的音共分散更新403では、内部雑音除去装置100が、式(5)を用いて目的音共分散行列R(f)を更新する。
Figure 2011004503
ここで、αは更新係数であり、0から1までの値をとる。*は行列又はベクトルの転置を表す。
また、内部雑音除去装置100は、内部雑音シグナルを参照し、内部雑音が発生していないときに目的音共分散更新403を実行する。内部雑音が発生しているときには、目的音共分散行列は更新されず、内部雑音が発生する前の値が保持される。なぜなら、内部雑音が発生しているときに目的音共分散行列が更新されると、目的音共分散行列中に内部雑音の情報が混入し、雑音抑圧フィルタリング405において、雑音が抑圧されず、逆に強調されてしまうからである。
図5は、本発明の第1の実施形態の内部雑音シグナルの一例を示す説明図である。
内部雑音シグナルには、発生タイミング510に対応し、内部雑音シグナル名称500が定義される。内部雑音シグナル名称500は、内部雑音を識別するための識別子である。発生タイミング510は、内部雑音シグナル名称500に対応する内部雑音が発生するタイミングを示す。
図5に示す例では、内部雑音シグナル名称500として「内部雑音発生」及び「内部雑音終了」がある。また、「内部雑音発生」の発生タイミング510は「内部雑音が生じたタイミング」であり、「内部雑音終了」の発生タイミング510は「内部雑音が止まったタイミング」である。
つまり、内部雑音が生じたタイミングで出力される内部雑音シグナルと、内部雑音が止まったタイミングで出力される内部雑音シグナルとがあることがわかる。
前述した二つの内部雑音シグナルは、さらに、内部雑音の種類を示す情報がそれぞれ含まれる。
図6は、本発明の第1の実施形態の内部雑音の種類の一例を示す説明図である。なお、図6は、内部雑音シグナル名称500が「内部雑音発生」である内部雑音の種類の一例を示す。
内部雑音の種類には、発生タイミング610に対応し、動作音名称600が定義される。動作音名称600は、アクチュエータ105の動作によって発生する内部雑音を識別する識別子である。発生タイミング610は、動作音名称600に対応する内部雑音が発生するタイミングである。
例えば、動作音名称600が「モータ1」の動作音は、モータ1の駆動時に発生する動作音として定義される。同様に、動作音名称600が「モータ2」の動作音は、モータ2の駆動時に発生する動作音として定義される。
また、モータ1とモータ2との動作音が同時に存在する場合の動作音は、動作音名称600が「モータ1・2」であり、モータ1及びモータ2の動作音とは異なる動作音として定義される。
図7は、本発明の第1の実施形態における3つのアクチュエータの動作状態に応じた内部雑音シグナルの種類を定義する一例のタイミングチャートである。
図7に示す例では、モータ1のみが動作を開始した場合、動作音名称600は「モータ1」と定義される。モータ2のみが動作を開始した場合、動作音名称600は「モータ2」と定義される。モータ3のみが動作を開始した場合、動作音名称600は「モータ3」と定義される。モータ1及びモータ2が動作を開始した場合、動作音名称600は「モータ1・2」と定義される。
図4の説明に戻る。
雑音共分散行列選択406では、内部雑音除去装置100が、入力された内部雑音シグナルに基づいて、雑音共分散行列DB302が格納された記憶装置106又は揮発性メモリ107から雑音共分散行列R(f)を選択し、選択された雑音共分散行列R(f)を雑音抑圧フィルタ更新404に出力する。なお、雑音共分散行列選択406において、一つの内部雑音シグナルに対応する雑音共分散行列DB302が複数ある場合、内部雑音除去装置100は、複数の内部雑音行列R(f)を選択してもよい。
雑音抑圧フィルタ更新404では、内部雑音除去装置100が、目的音共分散行列R(f)と雑音共分散行列R(f)とを用いて、雑音抑圧フィルタw(f)を生成する。例えば、式(6)を用いて雑音抑圧フィルタw(f)が生成される。
Figure 2011004503
ここで、maxeigは、最大固有値を与える固有ベクトルを算出する演算子である。
また、iは、i番目の雑音共分散行列を示す。つまり、雑音共分散行列選択406において、複数の内部雑音行列R(f)が選択された場合、内部雑音除去装置100は、各々の雑音共分散行列毎に雑音抑圧フィルタを生成する。
雑音抑圧フィルタリング405では、内部雑音除去装置100が、式(7)に示しように、各雑音共分散行列に対応する雑音抑制フィルタw(f)を入力信号x(f,τ)に作用させ、雑音抑圧後の信号y(f,τ)を算出する。
Figure 2011004503
内部雑音除去装置100は、雑音抑圧信号y(f,τ)をパワー最小化フィルタリング408に出力する。
内部雑音除去装置100は、内部雑音が発生していない間、雑音抑圧フィルタリング405を実行しない。なお、内部雑音が発生していない間、内部雑音除去装置100は、多チャンネル周波数分析401において、いずれか一つのマイクロホンから入力される入力信号を雑音抑圧信号y(f,τ)としてパワー最小化フィルタリング408に出力してもよい。
パワー最小化フィルタリング408では、内部雑音除去装置100が、雑音抑圧フィルタリング405から入力された雑音抑圧信号y(f,τ)の絶対値|y(f,τ)|の2乗が、最小となる雑音抑圧信号ymin(f,τ)を算出する。
また、内部雑音除去装置100は、絶対値|y(f,τ)|の代わりに、式(8)に示すようにパワーの移動平均から算出されたP(f,τ)が最小となる雑音抑圧信号y(f,τ)を雑音抑圧信号ymin(f,τ)として算出してもよい。
Figure 2011004503
ここで、βは移動平均を算出するための係数であり、0から1までの値をとる。
図8は、本発明の第1の実施形態のパワー最小化フィルタリング408の処理のフローチャートである。
初期化801では、内部雑音除去装置100が、各種変数を初期値に設定する。具体的には、内部雑音除去装置100は、雑音抑圧フィルタのインデックスiを「0」に設定し、|y(f,τ)|の2乗を最小値Pminに設定し、Pminを最小とする雑音抑圧フィルタのインデックスiminを「0」に設定する。内部雑音除去装置100は、各種変数を初期値に設定した後、判定805に進む。
判定805では、内部雑音除去装置100が、雑音抑圧フィルタのインデックスiが全雑音抑圧フィルタ数imaxより大きいか否かを判定する。つまり、全ての雑音抑圧フィルタに対して処理が終了したか否かを判定する。
雑音抑圧フィルタのインデックスiが全雑音抑圧フィルタ数imax以下であると判定された場合、内部雑音除去装置100は、雑音抑圧フィルタリング802に進む。
雑音抑圧フィルタリング802では、内部雑音除去装置100が、各雑音抑圧フィルタを入力信号x(f,τ)に作用させ、雑音抑圧信号y(f,τ)を算出し、判定803に進む。
判定803では、内部雑音除去装置100が、雑音抑圧信号y(f,τ)の絶対値の2乗がPminより小さいか否かを判定する。なお、i=0の場合、判定803では、内部雑音除去装置100が、Pminの判定を行わず、雑音フィルタのインデックスiを「1」に更新してから判定805に戻り、次の雑音抑圧フィルタについて同様の処理を実行する。
雑音が除去された雑音抑圧信号y(f,τ)の絶対値の2乗がPmin以上であると判定された場合、内部雑音除去装置100は、iをi+1に更新してから判定805に戻り、次の雑音抑圧フィルタについて同様の処理を実行する。
雑音抑圧信号y(f,τ)の絶対値の2乗がPminより小さいと判定された場合、内部雑音除去装置100は、最小値更新804に進む。
最小値更新804では、内部雑音除去装置100が、Pmin及びiminを更新し、さらに、iをi+1に更新してから判定805に戻り、次の雑音抑圧フィルタについて処理を実行する。
判定805において、雑音抑圧フィルタのインデックスiが全雑音抑圧フィルタ数imaxより大きいと判定された場合、内部雑音除去装置100は、全ての雑音抑圧フィルタについて処理が完了したと判定し、Pminとなる雑音抑圧フィルタのインデックスi及び雑音抑圧信号y(f,τ)を、imin及び雑音抑圧信号ymin(f,τ)として時間領域変換409に出力し、処理を終了する。
前述した処理によって、内部雑音除去装置100は、マイクアレイ101から入力された信号に雑音抑圧フィルタを作用させた後の音量が最小となる雑音抑圧フィルタ、及び雑音抑圧後の音量が最小となる出力信号を取得することができる。
つまり、本実施形態では、内部雑音の種類及び発生タイミング等の各属性毎に複数の雑音抑圧フィルタが生成され、当該雑音抑圧フィルタのうち、雑音が抑圧された後の音量が最も小さくなる雑音抑圧フィルタを選択することができる。したがって、正確に雑音を除去することが可能となる。
時間領域変換409では、内部雑音除去装置100が、周波数毎に算出された雑音抑圧信号ymin(f,τ)に対して式(9)に示す逆フーリエ変換を実行することによって、時間領域の雑音抑圧信号ymin(p)を算出する。
Figure 2011004503
ここで、fmaxはサンプリングレートの0.5倍に相当する周波数とする。
時間領域変換409では、内部雑音除去装置100が、時間領域の雑音抑圧信号ymin(p)に窓関数の逆数に相当する関数を作用させたものをフレーム間で加算した最終的な信号を出力する。
図9は、本発明の第1の実施形態における目的音共分散更新403、雑音抑圧フィルタ更新404、雑音共分散行列選択406、及び内部雑音の発生状況の一例のタイミングチャートである。
図9に示すように内部雑音が発生していない時間帯に、目的音共分散更新403が実行される。当該時間帯には、雑音抑圧フィルタ更新404、及び雑音共分散行列選択406は実行されない。
内部雑音が発生した場合、内部雑音が発生した時に、アクチュエータ制御装置104から内部雑音発生シグナルが出力される。なお、出力される内部雑音発生シグナルには、内部雑音が発生したタイミング、及び内部雑音の種類等の内部雑音の属性が含まれる。
内部雑音発生シグナルは、アクチュエータ制御装置104に送信される駆動信号を用いる方法が考えられる。つまり、アクチュエータ制御装置104に送信される駆動信号が内部雑音発生シグナルとして中央演算装置103に入力される。
例えば、「A」という種類の内部雑音が発生した場合、内部雑音Aの発生シグナルが雑音共分散行列選択406に入力される。また、雑音抑圧フィルタ更新404にも目的音共分散更新403を介して内部雑音Aの発生シグナルが入力される。
雑音共分散行列選択406では、内部雑音除去装置100が、入力された内部雑音Aに相当する雑音共分散行列を雑音共分散行列DB302から読み出す。
雑音抑圧フィルタ更新404では、内部雑音除去装置100が、目的音共分散行列と内部雑音Aに相当する雑音共分散行列とから雑音抑圧フィルタを生成する。雑音抑圧フィルタは、例えば、式(6)を用いて生成される。
内部雑音Aの発生中、内部雑音除去装置100は、毎フレーム、雑音抑圧フィルタ更新404を実行してもよい。なお、内部雑音Aの発生中には、目的音共分散更新403は実行されない。
内部雑音Aの終了シグナルが目的音共分散更新403に入力された時に、内部雑音除去装置100は、再び、目的音共分散更新403を再開する。
以下、雑音共分散推定処理301の詳細について説明する。
図10は、本発明の第1の実施形態の雑音共分散推定処理301の詳細を説明するブロック図である。
雑音共分散推定処理301は、多チャンネル周波数分析1001、特徴量抽出1002、特徴量ベクトル生成1003、クラスタリング1004、及び雑音共分散更新1005を含み、各処理は、中央演算装置103によって実行される。
なお、本実施形態では、雑音共分散推定処理301の実行時には、内部雑音の属性毎に学習用の内部雑音信号が予め用意されている。予め用意された学習用の内部雑音信号には雑音が発生した時間帯(タイミング)が含まれており、雑音共分散推定処理301は、該当する時間帯(タイミング)の内部雑音信号のみ抽出して学習することができる。なお、予め用意された学習用の内部雑音信号は、複数存在してもよい。
多チャンネル周波数分析1001では、内部雑音除去装置100が、各内部雑音信号をフレーム毎に周波数領域信号x(f,τ)に変換する。ここで、内部雑音の種類を表すインデックスをq、内部雑音qの複数の内部雑音信号を表すインデックスをj、内部雑音qのj番目の信号のフレームτの周波数領域信号をxq,j(f,τ)と記載する。
特徴量抽出1002では、内部雑音除去装置100が、式(10)を用いてxq,j(f,τ)から特徴量Vq,j(f,τ)を生成する。
Figure 2011004503
特徴量ベクトル生成1003では、内部雑音除去装置100が、まず各周波数をZ個のサブグループに分ける。ここで、zはサブグループを表すインデックスとする。
特徴量ベクトル生成1003では、内部雑音除去装置100が、サブグループzに属する同一フレームτの特徴量Vq,j(f,τ)を連結して一つのベクトルVq,j(z,τ)を生成する。
図11は、本発明の第1の実施形態のベクトルVq,j(z,τ)のデータ構造を示す説明図である。
図11に示すように、ベクトルVq,j(z,τ)は、各周波数毎の特徴量Vq,j(f,τ)を要素に持つベクトルである。
クラスタリング1004では、内部雑音除去装置100が、サブグループ毎に、内部雑音qの学習用の全信号及び全フレームのデータに対して、クラスタリング処理を実行する。具体的には、内部雑音除去装置100は、信号インデックス及びフレームインデックス毎にその信号及びフレームの特徴量の属するクラスタを定義するインデックスInd(j,τ)を出力する。
図22は、本発明の第1の実施形態のインデックスInd(j,τ)の一例を示す説明図である。
クラスタリング1004が実行された結果、内部雑音信号には、内部雑音の各時間毎にインデックスInd(j,τ)が付与される。
図22に示す例では、内部雑音信号にA〜CのインデックスInd(j,τ)が付与される。
雑音共分散更新1005では、内部雑音除去装置100が、クラスc毎に式(11)を用いて、そのクラスタに属する特徴量を算出するときに用いられた入力データx(f,τ)から周波数毎の共分散行列を算出する。
Figure 2011004503
クラスタの数が、雑音共分散行列及び雑音抑圧フィルタの数となる。なお、クラスタの数は予め設定されてもよい。
雑音共分散更新1005では、内部雑音除去装置100が、内部雑音信号毎に算出された雑音共分散行列を記憶装置106又は揮発性メモリ107に雑音共分散行列DB302として格納し、処理を終了する。
図12は、本発明の第1の実施形態のクラスタリング1004における処理の詳細のフローチャートである。
以下、内部雑音の種類を表すインデックスq及びサブグループのインデックスzを省略して表記する。また、τをτ=j*T+τと変数変換する。ここで、Tは各内部雑音信号のフレーム数である。
初期化1201では、内部雑音除去装置100が、各クラスタのセントロイドC(c)に特徴量V(τ)の一つをランダムに設定する。ここで、randomは全ての内部雑音信号及び全てのフレームのうちいずれか一つをランダムに選択する変数である。また、クラスタリング1004は、変数endを「FALSE」に、Indpre(τ)を「0」に初期化する。
判定1202では、内部雑音除去装置100が、変数endが終了状態を示す「TURE」であるか否かを判定する。
変数endが終了状態を示す「TURE」であると判定された場合、内部雑音除去装置100は、処理を終了する。
変数endが終了状態を示す「TURE」でないと判定された場合、内部雑音除去装置100は、初期化1203に進む。
初期化1203では、内部雑音除去装置100が、インデックスτを最も小さい値「1」に初期化し、判定1204に進む。
判定1204では、内部雑音除去装置100が、インデックスτが最大値Tmax以下であるか否かを判定する。
インデックスτが最大値Tmax以下であると判定された場合、内部雑音除去装置100は、初期化1205に進む。
初期化1205では、内部雑音除去装置100が、変数Ind(τ)を「1」に、クラスタのインデックスcを「1」に、また変数minを「−1」を初期化し、判定1206に進む。
判定1206では、内部雑音除去装置100が、クラスタのインデックスcがクラスタ数C以下であるか否かを判定する。
クラスタのインデックスcがクラスタ数Cより大きいと判定された場合、内部雑音除去装置100は、τをτ+1に更新し、判定1204に戻る。
クラスタのインデックスcがクラスタ数C以下であると判定された場合、内部雑音除去装置100は、距離計算1207に進む。
距離計算1207では、内部雑音除去装置100が、関数Dを用いて、各クラスタのセントロイドC(c)と特徴量V(τ)との距離を算出し、判定1208に進む。関数Dは、例えば、|C(c)−V(τ)|等が考えられる。算出された距離は変数disに入力される。
判定1208では、内部雑音除去装置100が、変数disが変数minより小さいか否かを判定する。
変数disが変数min以上と判定された場合、内部雑音除去装置100は、クラスタのインデックスcをc+1に更新し、判定1206に戻る。
変数disが変数minより小さいと判定された場合、内部雑音除去装置100は、最小値置換1209に進む。
最小値置換1209では、内部雑音除去装置100が、Ind(τ)をクラスタのインデックスcに置き換える。また、内部雑音除去装置100は、変数minを変数disに置き換える。内部雑音除去装置100は、その後、クラスタのインデックスcをc+1に更新し、判定1206に戻る。
判定1204において、インデックスτが最大値Tmaxより大きいと判定された場合、内部雑音除去装置100は、更新1210に進む。
更新1210では、内部雑音除去装置100が、(12)を用いて、セントロイドC(c)を更新する。具体的には、各クラスタのセントロイドC(c)を超えた、セントロイドの更新は、各クラスタにおける特徴量V(τ)の平均値を算出することによって実行される。
Figure 2011004503
更新の後、内部雑音除去装置100は、判定1211に進む。
判定1211では、内部雑音除去装置100が、全てのインデックスτに対して、Indpre(τ)とInd(τ)とが等しいか否かを判定する。
判定1211の条件を満たさないと判定された場合、内部雑音除去装置100は、全てのインデックスτについてIndpre(τ)にInd(τ)を代入し、判定1202に戻る。
全てのインデックスτに対して、Indpre(τ)とInd(τ)とが等しいと判定された場合、内部雑音除去装置100は、変数endを「TURE」に設定して、判定1202に戻る。
第2の実施形態
以下、本発明の第2の実施形態について説明する。本発明の第2の実施形態は、音声会議システムを想定したものである。以下、本発明の第1の実施形態との差異を中心に説明する。
図13は、本発明の第2の実施形態の音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
第2の実施形態では、内部雑音除去装置1300、マイクアレイ1301、キーボード信号認識装置1304、キーボード1305、音声送信装置1308、音声受信装置1309、DA変換装置1310、及びスピーカ1311を備える音声会議システムについて説明する。
内部雑音除去装置1300は、AD変換装置1302、中央演算装置1303、記憶装置1306、及び揮発性メモリ1307を備える。
AD変換装置1302は、マイクアレイ1301から入力されたアナログ信号を中央演算装置1303が処理可能なデジタル信号に変換する。図13に示す例では、アナログ信号がマイクアレイ1301からAD変換装置1302に入力される。
中央演算装置1303は、揮発性メモリ1307に展開された各種プログラムを実行する。具体的には、中央演算装置1303は、AD変換装置1302によってデジタル変換された後のデジタル信号から内部雑音を除去し、内部雑音除去音のみを抽出する処理を実行する。
第2の実施形態では、内部雑音除去音は、ユーザがキーボード1305のキーを操作した時に発生する音を除去した音(キーボード除去音)とする。抽出された内部雑音除去音(キーボード除去音)は、音声送信装置1308に送信される。
記憶装置1306は、内部雑音を除去するためのプログラムや、内部雑音に関するデータを格納する。記憶装置1306に格納されるプログラムは、第1の実施形態と同一である。揮発性メモリ1307は、プログラム実行中のワークメモリを確保するために用いられる。
キーボード信号認識装置1304は、キーボード1305が備えるキーのうち、どのキーが、いつ操作されたかという情報を検出する。検出された情報は、中央演算装置1303に送信される。
音声送信装置1308は、中央演算装置1303から受信した内部雑音除去音を音声会議の通話先に送信する。
音声受信装置1309は、音声会議の通話先より送られてきた音声信号を受信し、受信した音声信号を中央演算装置1303に送信する。中央演算装置1303は、受信した音声信号をDA変換装置1310に送信する。
DA変換装置1310は、受信した音声信号をアナログの音声信号に変換し、スピーカ1311に送信する。
スピーカ1311は、DA変換装置1310から送信されたアナログの音声信号を再生する。なお、スピーカ1311から再生されるアナログの音声信号(スピーカ再生信号と記載する)は、マイクアレイ1301によって収集される。この場合、マイクアレイ1301によって収集された音に含まれるスピーカ再生信号は、中央演算装置1303が実行する音響エコーキャンセラ処理によって除去される。
なお、内部雑音除去装置1300は、マイクアレイ1301、キーボード信号認識装置1304、キーボード1305、音声送信装置1308、音声受信装置1309、DA変換装置1310、及びスピーカ1311の少なくとも一つを備えてもよい。また、AD変換装置1302又は記憶装置1306は、内部雑音除去装置1300の外部に備わってもよい。
図14は、本発明の第2の実施形態のキーボード1305の操作音に対応する内部雑音シグナルの一例を示す説明図である。
内部雑音シグナルは、キーボード1305のそれぞれのキーを操作した時に発行される。内部雑音シグナルは、キーボード1305のどのキーを操作した時の動作音がを識別できるように定義されている。
具体的には、内部雑音シグナルには、発生タイミング1410に対応し、動作音名称1400が定義される。動作音名称1400は、キーボード1305の操作音を識別するための識別子である。発生タイミング1410は、動作音名称1400に対応する内部雑音が発生するタイミングを示す。
図15は、本発明の第2の実施形態の各装置が実行する処理のブロック図である。
マイクアレイ1301によって収集された音声は、AD変換装置1302に送信される。AD変換装置1302は、受信した音声信号に対してAD変換処理1502を実行し、受信した音声信号をデジタル信号に変換する。AD変換装置1302は、デジタル化された音声信号を中央演算装置1303に送信する。
なお、デジタル化された音声信号には、ユーザが発した音声のほか、スピーカ1311から出力される音声がマイクアレイ1301によって収集された音(音響エコー)やキーボード1305の操作時に発生する雑音が含まれる。
中央演算装置1303は、AD変換装置1302から送信された音声信号に対して、エコーキャンセラ1505を実行する。
エコーキャンセラ1505では、スピーカ1311から出力される音声信号を参照信号として、NLMSなどの一般的なアルゴリズムを用いて音響エコー成分が除去される。
音響エコー成分が除去された音声信号は、内部雑音除去処理1503に出力される。中央演算装置1303は、音響エコー成分が除去された音声信号に対して内部雑音除去処理1503を実行し、キーボードの操作音を除去する。なお、内部雑音除去処理1503は、第1の実施形態の内部雑音除去処理303と同一の構成である。
内部雑音が除去された音声信号は、音声送信1508でネットワークを介して会議相手に送信される。
会議相手の音声は、ネットワークを介し、音声受信1507で受信する。受信した音声は、DA変換装置1310に送信される。
DA変換装置1310は、受信した音声に対してDA変換処理1504を実行することによって、受信した音声をアナログの音声信号に変換する。また、DA変換装置1310は、アナログの音声信号をスピーカ1311に送信する。
スピーカ1311は、受信したアナログの音声信号を再生する。
図16は、本発明の第2の実施形態の音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
キーボード1601上に配置されるボタンをユーザが操作した場合、操作されたボタン位置から雑音が発生する。発生した雑音は、音声会議システムにおけるユーザの発声音声と共にマイクロホンアレイ1603によって収集される。なお、マイクロホンアレイ1603は、例えば、パーソナルコンピュータの表示装置1602の上に配置することが考えられる。
第3の実施形態
以下、本発明の第3の実施形態について説明する。本発明の第3の実施形態は、タッチパネルを備える音声会議システムを想定したものである。以下、本発明の第1の実施形態との差異を中心に説明する。
図17は、本発明の第3の実施形態のタッチパネルを備える音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
第3の実施形態では、内部雑音除去装置1700、マイクアレイ1701、タッチ位置認識装置1704、タッチパネル1705、音声送信装置1708、音声受信装置1709、DA変換装置1710、及びスピーカ1711を備える音声会議システムについて説明する。
内部雑音除去装置1700は、AD変換装置1702、中央演算装置1703、記憶装置1706、及び揮発性メモリ1707を備える。
AD変換装置1702は、マイクアレイ1701から入力されたアナログ信号を中央演算装置1703が処理可能なデジタル信号に変換する。図17に示す例では、マイクアレイ1701からアナログ信号がAD変換装置1702に入力される。
中央演算装置1703は、揮発性メモリ1707に展開された各種プログラムを実行する。具体的には、中央演算装置1703は、AD変換装置1702によってデジタル変換された後のデジタル信号から内部雑音を除去し、内部雑音除去音のみを抽出する処理を実行する。
第3の実施形態では、内部雑音除去音は、ユーザがタッチパネル1705を操作した時に発生する音を除去した音(タッチパネル除去音)とする。抽出された内部雑音除去音(タッチパネル除去音)は、音声送信装置1708に送信される。
記憶装置1706は、内部雑音を除去するためのプログラムや、内部雑音に関するデータを格納する。記憶装置1706に格納されるプログラムは、第1の実施形態と同一である。揮発性メモリ1707は、プログラム実行中のワークメモリを確保するために用いられる。
タッチ位置認識装置1704は、タッチパネル1705のどの位置が、いつ操作されたかの情報を検出する。検出された情報は、中央演算装置1703に送信される。
音声送信装置1708は、中央演算装置1703から受信した内部雑音除去音を音声会議の通話先に送信する。
音声受信装置1709は、音声会議の通話先より送られてきた音声信号を受信し、受信した音声信号を中央演算装置1703に送信する。中央演算装置1703は、受信した音声信号をDA変換装置1710に送信する。
DA変換装置1710は、受信した音声信号をアナログの音声信号に変換し、スピーカ1711に送信する。
スピーカ1711は、DA変換装置1710から送信されたアナログの音声信号を再生する。なお、スピーカ1711から再生されるアナログの音声信号(以下、スピーカ再生信号と記載する)は、マイクアレイ1701によって収集される。この場合、マイクアレイ1701によって収集された音に含まれるスピーカ再生信号は、中央演算装置1703が実行する音響エコーキャンセラ処理によって除去される。
なお、内部雑音除去装置1700は、マイクアレイ1701、タッチ位置認識装置1704、タッチパネル1705、音声送信装置1708、音声受信装置1709、DA変換装置1710、及びスピーカ1711の少なくとも一つを備えてもよい。また、AD変換装置1702又は記憶装置1706は、内部雑音除去装置1700の外部に備わってもよい。
図18は、本発明の第3の実施形態のタッチパネル1705の操作音に対応する内部雑音シグナルの一例を示す説明図である。
内部雑音シグナルは、タッチパネル1705のそれぞれのタッチ位置を操作した時に発行される。内部雑音シグナルには、タッチパネル1705のタッチ位置毎にどの位置を操作した時の操作音であるかを識別できるよる情報が含まれる。
具体的には、内部雑音シグナルには、発生タイミング1810に対応し、タッチ位置名称1800が定義される。タッチ位置名称1800は、タッチパネル1705のタッチ位置毎の操作音を識別するための識別子である。発生タイミング1810は、タッチ位置名称1800に対応する内部雑音が発生するタイミングを示す。
図19は、本発明の第3の実施形態のタッチパネル1705を備える音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
タッチパネル1902を操作した音は、音声会議システムにおけるユーザが発する音声と共にマイクロホンアレイ1901によって収集される。
第4の実施形態
以下、本発明の第4の実施形態について説明する。本発明の第4の実施形態は、音声認識の機能を備えるロボット(図23参照)を想定したものである。以下、本発明の第1の実施形態との差異を中心に説明する。
なお、第4の実施形態のロボット2201は、内部雑音除去装置100を備える。内部雑音除去装置100のハードウェア構成及び処理構成は第1の実施形態と同一であるため説明を省略する。
図20は、本発明の第4の実施形態の内部雑音除去処理を含む音声認識の処理の構成のブロック図である。
内部雑音除去装置100は、音声認識用マイクホンアレイ2204によって収集された音声信号に対しAD変換処理2002を実行し、デジタル音声信号に変換する。デジタル音声信号は、内部雑音除去処理303に出力される。
内部雑音除去装置100は、内部雑音除去処理303を実行し、デジタル音声信号中に含まれる内部雑音を除去し、音声認識の対象である人の音声のみ抽出する。抽出された音声は音声認識2004に出力される。
音声認識2004では、一般的なMFCCなどの特徴量抽出処理が実行され、予め学習する音響モデルと特徴量とのビタビデコーディング処理が実行され、どの音声が発生したかを認識するような構成を取る。内部雑音除去装置100は、認識結果を出力し、処理を終了する。
第5の実施形態
以下、本発明の第5の実施形態について説明する。本発明の第5の実施形態は、雑音共分散行列及び目的音共分散行列の推定方法及び雑音抑圧フィルタの適応方法の変形例を示す。以下、本発明の第1の実施形態との差異を中心に説明する。
なお、第5の実施形態は、装置構成は第1の実施形態のハードウェア構成及び処理構成は同一であるため説明を省略する。
図21は、本発明の第5の実施形態の実施形態の内部雑音除去処理303の詳細のブロック図である。
内部雑音除去装置100は、フレーム毎に、マイクアレイ101によって収集された音声信号に対して多チャンネル周波数分析2101を実行し、周波数領域信号に変換する。変換された周波数領域信号は、各周波数毎に音源方向推定2102に出力される。
内部雑音除去装置100は、周波数領域信号に対し、音源方向推定2102を実行し、音源の方向が特定する。音源方向推定2102は、例えば、各マイクロホン間の位相差に基づくGCC−PHAT法や遅延和アレイ法などを用いる方法が考えられる。
内部雑音除去装置100は、音源方向推定2102において、予め目的音方向を設定しておき、フレーム毎及び周波数毎に、音源方向が予め設定された目的音方向と一致するか否かを判定する。
音源方向が目的音方向と一致すると判定された場合、内部雑音除去装置100は、条件を満たす成分(フレーム及び周波数)の音声を目的音として、当該音声に対して目的音適応2103を実行する。具体的には、内部雑音除去装置100は、式(5)を用いて目的音の共分散行列R(f)を更新する。
音源方向が目的音方向と一致しなかった場合、内部雑音除去装置100は、条件を満たさない成分(フレーム及び周波数)の音声を雑音として、雑音適応2104を実行する。具体的には、内部雑音除去装置100は、式(13)を用いて雑音共分散行列R(f)を更新する。
Figure 2011004503
内部雑音追加2105では、内部雑音除去装置100が、内部雑音シグナルに対応する各雑音共分散行列に雑音共分散行列R(f)を加算する。
フィルタ適応2106では、内部雑音除去装置100が、目的音共分散行列とR(f)が加算された雑音共分散行列とを式(6)に代入し、雑音抑圧フィルタを生成する。
本発明の一実施形態によれば、内部雑音除去装置100は、内部雑音の種類及び発生タイミング等の内部雑音の属性に応じて複数の雑音共分散行列を生成し、発生した内部雑音に対応した雑音共分散行列を複数選択し、各々の雑音共分散行列から複数の雑音抑圧フィルタを生成し、さらに、複数の雑音抑圧フィルタから適切な雑音フィルタを選択することができる。これによって、アクチュエータの動作状態によって音質が変化するような非定常な雑音に対しても適切に雑音を除去することが可能となる。
また、アクチュエータの動作音以外のキーボード1305又はタッチパネル1705等の操作音に対しても、正確に雑音を除去することができる。The present invention efficiently removes noise generated from an actuator or the like in a system having a voice recording function, such as a video conference system having a robot or projector having a voice recognition function.
FIG. 23 is an explanatory diagram showing an example of a robot having a voice recognition function according to the present invention.
The noise removal mechanism of the present invention is mounted on, for example, a robot 2201 having a voice recognition function as shown in FIG.
The robot 2201 includes an arm control actuator 2202 for controlling the arm of the robot 2201 and a leg control actuator 2203 for controlling the leg of the robot 2201. The robot 2201 includes a voice recognition microphone array 2204 for recognizing a voice of a user who interacts with the robot 2201.
Usually, in the speech recognition, only the user speech in which no surrounding sounds are mixed is collected by the microphone array 2204. Therefore, it is known that the performance of voice recognition is deteriorated when sounds mixed with surrounding sounds are collected by the microphone array 2204.
In the robot 2201 shown in FIG. 23, user sounds including operation sounds of the arm control actuator 2202 and the leg control actuator 2203 are collected by a microphone.
The operation sound of the arm control actuator 2202 and the leg control actuator 2203 changes the position where the operation sound is generated when the arm or leg moves. In addition, the operation sounds of the arm control actuator 2202 and the leg control actuator 2203 change when the operation of each actuator starts, is in operation, or ends.
In the present invention, sound generated inside the device, such as operation sound of the actuator, is efficiently removed.
FIG. 24 is an explanatory diagram showing a device configuration of a video conference system including a projector according to the present invention.
At the site A, the voice of the person uttered at the site A is collected by the microphone array 2301, and the collected voice information is transmitted to the computer 2305.
The computer 2305 extracts only the voice of a person uttered at the site A from the sounds collected by the microphone array 2301, and transmits the extracted voice to another site B via the network 2306. Also, the scenery of the base A photographed by the camera 2304 at the base A is transmitted to the base B in the same manner.
At the site B, the received voice and the image taken by the camera 2304 are taken into the computer 2305. An image photographed by the camera 2304 is projected on the projector 2303. The received sound is reproduced by the speaker 2302.
Similarly, audio collected by the microphone array 2301 installed at the site B and an image taken by the camera 2304 are captured by the computer 2305 and then transmitted to the site A via the network 2306.
At the site A, as in the case of the site B, an image photographed by the camera 2304 is projected onto the projector 2303, and the received sound is reproduced by the speaker 2302.
In the conference system shown in FIG. 24, there is a problem that noise such as fan noise generated from the projector 2303 is mixed into the sound collected by the microphone array 2301.
FIG. 25 is an explanatory diagram showing an example of noise generated from the projector 2303 in the present invention.
As noise generated from the projector 2303, a unique sound is generated every time the projector 2303 operates. Each noise generated from the projector 2303 corresponds to the generation timing 2410, and an operation sound name 2400 is defined. The operation sound name 2400 is an identifier for identifying noise generated from the projector 2303. The generation timing 2410 indicates a timing at which noise corresponding to the operation sound name 2400 is generated.
In the example shown in FIG. 25, the operation sound name 2400 includes “projector activation sound” and “projector operation sound”. Also, the “projector activation sound” generation timing 2410 is “when the projector is activated”, and the “projector operation sound” generation timing 2410 is “when the projector is operating”.
In the following description, a configuration and a method for removing internal noise generated inside the apparatus such as the operation sound of the actuator of the robot 2201 and the fan noise of the projector 2303 as described above will be described.
First embodiment
FIG. 1 is a block diagram of a hardware configuration of an internal noise removal apparatus according to the first embodiment of the present invention.
In the first embodiment, a device including the internal noise removing device 100, the microphone array 101, the actuator control device 104, and the actuator 105 will be described.
The internal noise removal device 100 includes an AD conversion device 102, a central processing unit 103, a storage device 106, and a volatile memory 107.
The AD converter 102 converts the input analog signal into a digital signal that can be processed by the central processing unit 103. In the example illustrated in FIG. 1, an analog signal input from the microphone array 101 is input to the AD converter 102.
The central processing unit 103 executes various programs developed in the volatile memory 107. Specifically, the central processing unit 103 removes internal noise from the digital signal that has been digitally converted by the AD converter 102, and extracts only the desired sound (hereinafter referred to as internal noise removed sound). The extracted internal noise-removed sound is output to a device (not shown) that reproduces an external internal noise-removed sound and is reproduced by the device.
The storage device 106 stores a program for removing internal noise and data related to internal noise. The program stored in the storage device 106 will be described later with reference to FIG. The volatile memory 107 is used to secure work memory during program execution.
The actuator control device 104 is a device that controls the actuator 105. For example, it controls the actuators (arm control actuator 2202 and leg control actuator 2203) installed on the arms and legs of the robot 2201 having the speech recognition device. The actuator control device 104 controls the actuator 105 based on the actuator control signal.
The actuator 105 is, for example, an actuator (arm control actuator 2202 and leg control actuator 2203) installed on an arm, a leg, or the like of a robot 2201 provided with a voice recognition device. Sound generated when the actuator 105 operates propagates and is collected by the microphone array 101.
Note that the sound collected by the microphone array 101 includes a desired sound required by a sound processing application (not shown) and noise generated when the actuator operates (hereinafter referred to as internal noise).
The internal noise removal device 100 may include at least one of the microphone array 101, the actuator control device 104, and the actuator 105. Further, the AD conversion device 102 or the storage device 106 may be provided outside the internal noise removal device 100.
FIG. 2 is a block diagram illustrating an example of a program stored in the storage device 106 according to the first embodiment of this invention.
The storage device 106 stores a covariance matrix learning program 1061 and a noise suppression program 1062.
The covariance matrix learning program 1061 is a program for generating a covariance matrix used for generating a noise suppression filter. The noise suppression program 1062 is a program for selecting an optimal noise suppression filter for the sound collected by the microphone array 101 and removing internal noise.
Note that the storage device 106 may store other programs.
FIG. 3 is a block diagram illustrating an example of processing executed by the internal noise removal apparatus 100 according to the present invention.
The internal noise removal apparatus 100 executes a noise covariance estimation process 301 and an internal noise removal process 303. Specifically, when the central processing unit 103 executes the covariance matrix learning program 1061, the noise covariance estimation process 301 is executed. Further, the central processing unit 103 executes the noise suppression program 1062, whereby an internal noise removal process 303 is executed.
The noise covariance estimation process 301 is a process for calculating a noise covariance matrix. Specifically, an internal noise signal including information related to internal noise is input to the central processing unit 103, and a noise covariance matrix is calculated based on the input internal noise signal. Note that the information related to the internal noise included in the internal noise signal includes information related to the internal noise attributes such as the type of internal noise and the timing at which the internal noise occurs.
The noise covariance estimation process 301 is a process for calculating the internal noise statistic (noise covariance matrix) for each internal noise attribute. A specific method for calculating the noise covariance matrix will be described later with reference to FIG.
The calculated noise covariance matrix is stored in the volatile memory 107 or the storage device 106. Hereinafter, the noise covariance matrix stored in the volatile memory 107 or the storage device 106 is referred to as a noise covariance matrix DB302.
The internal noise removal apparatus 100 desirably performs a so-called calibration process for executing the noise covariance estimation process 301 on the internal noise collected in advance.
The internal noise removal process 303 is a process for removing the internal noise from the sound in which the internal noise collected by the microphone array 101 and the target sound are mixed.
Specifically, the internal noise removing apparatus 100 removes the internal noise using the noise covariance matrix DB 302 from the sound in which the internal noise actually collected by the microphone array 101 and the target sound are mixed. , The sound from which only the target sound is extracted is output. Details of the internal noise removal processing 303 will be described later with reference to FIG.
FIG. 4 is a detailed block diagram of the internal noise removal processing 303 according to the first embodiment of this invention.
The internal noise removal processing 303 includes multi-channel frequency analysis 401, target sound covariance update 403, noise suppression filter update 404, noise suppression filtering 405, noise covariance matrix selection 406, and power minimization filtering 408. And executed by the central processing unit 103.
The digitized input signal is sampled for each channel (frame shift: L shift ) The internal noise removal process 303 is executed whenever it is obtained. In the present embodiment, L shift Is set to a time length of about several tens of ms.
For example, when the sampling rate of the AD converter 102 is 8 kHz, L shift Is set to about 256 points. Hereinafter, a process executed every time a sample having a certain frame shift amount is obtained is referred to as a frame process.
In one frame process, for each input signal input from each microphone, a sample of the past frame size at the time when the input signal was input (L frame ) Is executed. Here, an index representing the frame number is τ.
In the τ frame, for each microphone, (τ × L shift ) From the point (τ × L shift + L frame -1) The digital signal up to the point is processed. Here, p is an index representing the number of points from the first point of the τ frame.
The internal noise removal apparatus 100 receives an input signal represented by Expression (1) from the mth microphone.
Figure 2011004503
First, in the multi-channel frequency analysis 401, the internal noise removal apparatus 100 has p = 0 to p = L among the input signals input from the microphones. frame Discrete Fourier transform represented by Expression (2) is performed on the data of −1 point.
Figure 2011004503
According to equation (2), the time frequency domain signal x of each microphone m (F, τ) is obtained. Here, f represents a frequency, and the window function w (p) is, for example, a Hanning window as shown in Expression (3).
Figure 2011004503
The discrete Fourier transform may use an algorithm such as a fast Fourier transform.
The time frequency domain signals for each microphone are processed for each frequency as shown in Equation (4).
Figure 2011004503
Here, M is the number of microphones. T is an operator representing transposition of a vector or matrix.
Hereinafter, the internal noise removal apparatus 100 performs the target sound covariance update 403, the noise suppression filter update 404, the noise suppression filtering 405, and the noise covariance matrix with respect to a signal collected for each frequency as shown in Expression (4). Selection 406 and power minimization filtering 408 are performed.
In the target sound covariance update 403, the internal noise removing apparatus 100 uses the target sound covariance matrix R using Equation (5). s (F) is updated.
Figure 2011004503
Here, α is an update coefficient and takes a value from 0 to 1. * Represents matrix or vector transpose.
Also, the internal noise removal apparatus 100 refers to the internal noise signal and executes the target sound covariance update 403 when no internal noise is generated. When the internal noise is generated, the target sound covariance matrix is not updated, and the value before the internal noise is generated is retained. This is because if the target sound covariance matrix is updated while internal noise is occurring, the information of the internal noise is mixed in the target sound covariance matrix, and the noise is not suppressed by the noise suppression filtering 405, and the inverse It is because it is emphasized by.
FIG. 5 is an explanatory diagram illustrating an example of an internal noise signal according to the first embodiment of this invention.
The internal noise signal name 500 is defined for the internal noise signal corresponding to the generation timing 510. The internal noise signal name 500 is an identifier for identifying internal noise. The generation timing 510 indicates the timing at which internal noise corresponding to the internal noise signal name 500 is generated.
In the example shown in FIG. 5, the internal noise signal names 500 include “internal noise generation” and “internal noise end”. The generation timing 510 of “internal noise generation” is “timing when internal noise occurs”, and the generation timing 510 of “end of internal noise” is “timing when internal noise stops”.
That is, it can be seen that there are an internal noise signal output at the timing when the internal noise occurs and an internal noise signal output at the timing when the internal noise stops.
Each of the two internal noise signals described above further includes information indicating the type of internal noise.
FIG. 6 is an explanatory diagram illustrating an example of types of internal noise according to the first embodiment of this invention. FIG. 6 shows an example of the types of internal noise whose internal noise signal name 500 is “internal noise generation”.
For the type of internal noise, an operation sound name 600 is defined corresponding to the generation timing 610. The operation sound name 600 is an identifier for identifying internal noise generated by the operation of the actuator 105. The generation timing 610 is a timing at which internal noise corresponding to the operation sound name 600 is generated.
For example, an operation sound whose operation sound name 600 is “motor 1” is defined as an operation sound generated when the motor 1 is driven. Similarly, an operation sound whose operation sound name 600 is “motor 2” is defined as an operation sound generated when the motor 2 is driven.
In addition, the operation sound when the operation sounds of the motor 1 and the motor 2 exist at the same time is defined as an operation sound whose operation sound name 600 is “Motor 1 and 2” and is different from the operation sounds of the motor 1 and the motor 2 Is done.
FIG. 7 is an example timing chart that defines the types of internal noise signals corresponding to the operating states of the three actuators according to the first embodiment of the present invention.
In the example illustrated in FIG. 7, when only the motor 1 starts operation, the operation sound name 600 is defined as “motor 1”. When only the motor 2 starts operation, the operation sound name 600 is defined as “motor 2”. When only the motor 3 starts operating, the operation sound name 600 is defined as “motor 3”. When the motor 1 and the motor 2 start operation, the operation sound name 600 is defined as “motors 1 and 2”.
Returning to the description of FIG.
In the noise covariance matrix selection 406, the internal noise removal apparatus 100 determines the noise covariance matrix R from the storage device 106 or the volatile memory 107 in which the noise covariance matrix DB 302 is stored based on the input internal noise signal. n (F) is selected and the selected noise covariance matrix R n (F) is output to the noise suppression filter update 404. In addition, in the noise covariance matrix selection 406, when there are a plurality of noise covariance matrices DB302 corresponding to one internal noise signal, the internal noise removal apparatus 100 has a plurality of internal noise matrices R302. n (F) may be selected.
In the noise suppression filter update 404, the internal noise removal apparatus 100 performs the target sound covariance matrix R. s (F) and noise covariance matrix R n (F) and the noise suppression filter w i (F) is generated. For example, using expression (6), the noise suppression filter w i (F) is generated.
Figure 2011004503
Here, maxeig is an operator that calculates an eigenvector that gives the maximum eigenvalue.
I represents the i-th noise covariance matrix. That is, in the noise covariance matrix selection 406, a plurality of internal noise matrices R n When (f) is selected, the internal noise removal apparatus 100 generates a noise suppression filter for each noise covariance matrix.
In the noise suppression filtering 405, the internal noise removal apparatus 100 performs the noise suppression filter w corresponding to each noise covariance matrix as shown in the equation (7). i (F) is made to act on the input signal x (f, τ), and the signal y after noise suppression i (F, τ) is calculated.
Figure 2011004503
The internal noise removal apparatus 100 is configured to generate a noise suppression signal y i (F, τ) is output to the power minimization filtering 408.
The internal noise removal apparatus 100 does not execute the noise suppression filtering 405 while the internal noise is not generated. While the internal noise is not generated, the internal noise removal apparatus 100 uses the multi-channel frequency analysis 401 to convert the input signal input from any one of the microphones to the noise suppression signal y. i You may output to the power minimization filtering 408 as (f, (tau)).
In the power minimization filtering 408, the internal noise removal apparatus 100 receives the noise suppression signal y input from the noise suppression filtering 405. i Absolute value of (f, τ) | y i Noise suppression signal y whose square of (f, τ) | min (F, τ) is calculated.
In addition, the internal noise removal apparatus 100 has an absolute value | y i Instead of (f, τ) |, P calculated from the moving average of power as shown in equation (8) i Noise suppression signal y that minimizes (f, τ) i (F, τ) is the noise suppression signal y min It may be calculated as (f, τ).
Figure 2011004503
Here, β is a coefficient for calculating the moving average, and takes a value from 0 to 1.
FIG. 8 is a flowchart of processing of the power minimizing filtering 408 according to the first embodiment of this invention.
In initialization 801, the internal noise removal apparatus 100 sets various variables to initial values. Specifically, the internal noise removal apparatus 100 sets the index i of the noise suppression filter to “0”, and | y 0 The square of (f, τ) | min Set to P min Index i of the noise suppression filter that minimizes min Is set to “0”. The internal noise removal apparatus 100 proceeds to determination 805 after setting various variables to initial values.
In decision 805, the internal noise removal apparatus 100 determines that the noise suppression filter index i is the total noise suppression filter number i. max Determine if greater than. That is, it is determined whether or not the processing has been completed for all noise suppression filters.
The index i of the noise suppression filter is the total noise suppression filter number i max When it is determined that the following is true, the internal noise removal apparatus 100 proceeds to the noise suppression filtering 802.
In the noise suppression filtering 802, the internal noise removal apparatus 100 causes each noise suppression filter to act on the input signal x (f, τ), and the noise suppression signal y. i (F, τ) is calculated, and the process proceeds to decision 803.
In decision 803, the internal noise removal apparatus 100 determines that the noise suppression signal y i The square of the absolute value of (f, τ) is P min It is determined whether it is smaller. When i = 0, in the determination 803, the internal noise removal apparatus 100 determines that P min Without making the determination, the index i of the noise filter is updated to “1”, and then the process returns to the determination 805 to perform the same processing for the next noise suppression filter.
Noise suppression signal y with noise removed i The square of the absolute value of (f, τ) is P min If it is determined as above, the internal noise removal apparatus 100 updates i to i + 1, returns to determination 805, and performs the same processing for the next noise suppression filter.
Noise suppression signal y i If it is determined that the square of the absolute value of (f, τ) is smaller than Pmin, the internal noise removal apparatus 100 proceeds to the minimum value update 804.
In the minimum value update 804, the internal noise removal apparatus 100 performs P min And i min Is updated, i is updated to i + 1, and the process returns to decision 805 to execute processing for the next noise suppression filter.
In decision 805, the index i of the noise suppression filter is the total noise suppression filter number i. max When it is determined that the value is larger than the maximum value, the internal noise removal apparatus 100 determines that the processing has been completed for all the noise suppression filters, and P min The noise suppression filter index i and the noise suppression signal y i (F, τ) i min And noise suppression signal y min (F, τ) is output to the time domain transform 409 and the process is terminated.
Through the above-described processing, the internal noise removal apparatus 100 has a noise suppression filter that minimizes the volume after the noise suppression filter is applied to the signal input from the microphone array 101, and an output that minimizes the volume after noise suppression. A signal can be acquired.
In other words, in the present embodiment, a plurality of noise suppression filters are generated for each attribute such as the type of internal noise and the generation timing, and among the noise suppression filters, the noise suppression that minimizes the volume after the noise is suppressed. A filter can be selected. Therefore, noise can be accurately removed.
In the time domain transform 409, the internal noise removal apparatus 100 performs a noise suppression signal y calculated for each frequency. min By performing the inverse Fourier transform shown in Equation (9) on (f, τ), the time domain noise suppression signal y min (P) is calculated.
Figure 2011004503
Where f max Is a frequency corresponding to 0.5 times the sampling rate.
In the time domain transform 409, the internal noise removal apparatus 100 performs the time domain noise suppression signal y. min A final signal obtained by adding a function obtained by applying a function corresponding to the inverse of the window function to (p) between the frames is output.
FIG. 9 is a timing chart illustrating an example of the target sound covariance update 403, the noise suppression filter update 404, the noise covariance matrix selection 406, and the internal noise generation status according to the first embodiment of the present invention.
As shown in FIG. 9, the target sound covariance update 403 is executed in a time zone when no internal noise occurs. During the time period, the noise suppression filter update 404 and the noise covariance matrix selection 406 are not executed.
When internal noise occurs, an internal noise generation signal is output from the actuator control device 104 when the internal noise occurs. The output internal noise generation signal includes internal noise attributes such as the timing at which the internal noise occurs and the type of internal noise.
As the internal noise generation signal, a method using a drive signal transmitted to the actuator control device 104 can be considered. That is, the drive signal transmitted to the actuator control device 104 is input to the central processing unit 103 as an internal noise generation signal.
For example, when an internal noise of the type “A” is generated, the generated signal of the internal noise A is input to the noise covariance matrix selection 406. Further, the noise suppression filter update 404 is also input with a signal for generating the internal noise A via the target sound covariance update 403.
In the noise covariance matrix selection 406, the internal noise removal apparatus 100 reads a noise covariance matrix corresponding to the input internal noise A from the noise covariance matrix DB302.
In the noise suppression filter update 404, the internal noise removal apparatus 100 generates a noise suppression filter from the target sound covariance matrix and the noise covariance matrix corresponding to the internal noise A. The noise suppression filter is generated using, for example, Expression (6).
During the generation of the internal noise A, the internal noise removal apparatus 100 may execute the noise suppression filter update 404 every frame. During the generation of the internal noise A, the target sound covariance update 403 is not executed.
When the end signal of the internal noise A is input to the target sound covariance update 403, the internal noise removal apparatus 100 resumes the target sound covariance update 403 again.
Details of the noise covariance estimation process 301 will be described below.
FIG. 10 is a block diagram illustrating details of the noise covariance estimation process 301 according to the first embodiment of this invention.
The noise covariance estimation process 301 includes a multi-channel frequency analysis 1001, feature quantity extraction 1002, feature quantity vector generation 1003, clustering 1004, and noise covariance update 1005, and each process is executed by the central processing unit 103.
In the present embodiment, when the noise covariance estimation process 301 is executed, an internal noise signal for learning is prepared in advance for each internal noise attribute. The learning internal noise signal prepared in advance includes a time zone (timing) in which noise occurs, and the noise covariance estimation process 301 extracts only the internal noise signal in the corresponding time zone (timing). Can learn. A plurality of learning internal noise signals prepared in advance may exist.
In the multi-channel frequency analysis 1001, the internal noise removal apparatus 100 converts each internal noise signal into a frequency domain signal x (f, τ) for each frame. Here, the index representing the type of internal noise is q, the index representing a plurality of internal noise signals of the internal noise q is j, and the frequency domain signal of the frame τ of the j-th signal of the internal noise q is x. q, j It is described as (f, τ).
In the feature quantity extraction 1002, the internal noise removal apparatus 100 uses the equation (10) to express q, j Characteristic V from (f, τ) q, j (F, τ) is generated.
Figure 2011004503
In the feature vector generation 1003, the internal noise removal apparatus 100 first divides each frequency into Z subgroups. Here, z is an index representing a subgroup.
In the feature vector generation 1003, the internal noise removal apparatus 100 uses the feature V of the same frame τ belonging to the subgroup z. q, j Concatenating (f, τ) to one vector V q, j (Z, τ) is generated.
FIG. 11 shows a vector V according to the first embodiment of the present invention. q, j It is explanatory drawing which shows the data structure of (z, (tau)).
As shown in FIG. q, j (Z, τ) is the feature value V for each frequency. q, j It is a vector having (f, τ) as elements.
In the clustering 1004, the internal noise removal apparatus 100 performs a clustering process on all signals for learning internal noise q and data of all frames for each subgroup. Specifically, the internal noise removal apparatus 100 outputs an index Ind (j, τ) that defines a cluster to which a feature amount of the signal and frame belongs for each signal index and frame index.
FIG. 22 is an explanatory diagram illustrating an example of the index Ind (j, τ) according to the first embodiment of this invention.
As a result of executing clustering 1004, an index Ind (j, τ) is assigned to the internal noise signal for each time of the internal noise.
In the example shown in FIG. 22, indexes Ind (j, τ) of A to C are given to the internal noise signal.
In the noise covariance update 1005, the internal noise removal apparatus 100 uses the expression (11) for each class c and calculates the frequency from the input data x (f, τ) used when calculating the feature quantity belonging to the cluster. Calculate the covariance matrix for each.
Figure 2011004503
The number of clusters is the number of noise covariance matrices and noise suppression filters. Note that the number of clusters may be set in advance.
In the noise covariance update 1005, the internal noise removal apparatus 100 stores the noise covariance matrix calculated for each internal noise signal in the storage device 106 or the volatile memory 107 as the noise covariance matrix DB302, and the process ends.
FIG. 12 is a flowchart showing details of processing in the clustering 1004 according to the first embodiment of this invention.
Hereinafter, the index q indicating the type of internal noise and the index z of the subgroup are omitted. Also, τ is variable-transformed as τ = j * T + τ. Here, T is the number of frames of each internal noise signal.
In initialization 1201, the internal noise removal apparatus 100 randomly sets one of the feature values V (τ) to the centroid C (c) of each cluster. Here, random is a variable that randomly selects one of all internal noise signals and all frames. Further, the clustering 1004 sets the variable end to “FALSE”, Ind pre (Τ) is initialized to “0”.
In determination 1202, the internal noise removal apparatus 100 determines whether or not the variable end is “TURE” indicating the end state.
When it is determined that the variable end is “TURE” indicating the end state, the internal noise removal device 100 ends the process.
If it is determined that the variable end is not “TURE” indicating the end state, the internal noise removal apparatus 100 proceeds to initialization 1203.
In initialization 1203, the internal noise removal apparatus 100 initializes the index τ to the smallest value “1”, and proceeds to determination 1204.
In determination 1204, the internal noise removal apparatus 100 determines that the index τ is the maximum value T. max It is determined whether or not:
Index τ is maximum T max If it is determined that the internal noise removal apparatus 100 is equal to or less than the internal noise removal apparatus 100, the process proceeds to initialization 1205.
In initialization 1205, the internal noise removal apparatus 100 initializes the variable Ind (τ) to “1”, the cluster index c to “1”, and the variable min to “−1”, and proceeds to decision 1206.
In determination 1206, the internal noise removal apparatus 100 determines whether or not the cluster index c is equal to or less than the number C of clusters.
If it is determined that the cluster index c is greater than the cluster number C, the internal noise removal apparatus 100 updates τ to τ + 1 and returns to determination 1204.
When it is determined that the cluster index c is equal to or less than the number C of clusters, the internal noise removal device 100 proceeds to the distance calculation 1207.
In the distance calculation 1207, the internal noise removal apparatus 100 calculates the distance between the centroid C (c) and the feature value V (τ) of each cluster using the function D, and the process proceeds to decision 1208. As the function D, for example, | C (c) −V (τ) | The calculated distance is input to the variable dis.
In determination 1208, the internal noise removal apparatus 100 determines whether or not the variable dis is smaller than the variable min.
If it is determined that the variable dis is greater than or equal to the variable min, the internal noise removal device 100 updates the cluster index c to c + 1 and returns to determination 1206.
If it is determined that the variable dis is smaller than the variable min, the internal noise removal apparatus 100 proceeds to minimum value replacement 1209.
In the minimum value replacement 1209, the internal noise removal apparatus 100 replaces Ind (τ) with the cluster index c. Also, the internal noise removal device 100 replaces the variable min with the variable dis. The internal noise removal apparatus 100 then updates the cluster index c to c + 1 and returns to decision 1206.
In decision 1204, the index τ is the maximum value T. max If it is determined that the value is larger, the internal noise removal apparatus 100 proceeds to update 1210.
In update 1210, internal noise removal apparatus 100 updates centroid C (c) using (12). Specifically, the update of the centroid exceeding the centroid C (c) of each cluster is executed by calculating the average value of the feature value V (τ) in each cluster.
Figure 2011004503
After the update, the internal noise removal device 100 proceeds to decision 1211.
In decision 1211, the internal noise removal apparatus 100 determines that the Ind for all indices τ. pre It is determined whether (τ) and Ind (τ) are equal.
When it is determined that the condition of the determination 1211 is not satisfied, the internal noise removal device 100 performs the Ind for all indexes τ. pre Substitute Ind (τ) for (τ), and return to decision 1202.
For all indices τ, Ind pre If it is determined that (τ) and Ind (τ) are equal, the internal noise removal device 100 sets the variable end to “TURE” and returns to determination 1202.
Second embodiment
Hereinafter, a second embodiment of the present invention will be described. The second embodiment of the present invention assumes an audio conference system. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
FIG. 13 is a block diagram of a hardware configuration of an internal noise removal device in the audio conference system according to the second embodiment of this invention.
In the second embodiment, an audio conference system including an internal noise removal device 1300, a microphone array 1301, a keyboard signal recognition device 1304, a keyboard 1305, an audio transmission device 1308, an audio reception device 1309, a DA conversion device 1310, and a speaker 1311. explain.
The internal noise removal device 1300 includes an AD conversion device 1302, a central processing unit 1303, a storage device 1306, and a volatile memory 1307.
The AD converter 1302 converts the analog signal input from the microphone array 1301 into a digital signal that can be processed by the central processing unit 1303. In the example illustrated in FIG. 13, an analog signal is input from the microphone array 1301 to the AD conversion device 1302.
The central processing unit 1303 executes various programs developed in the volatile memory 1307. Specifically, the central processing unit 1303 executes a process of removing internal noise from the digital signal after being digitally converted by the AD converter 1302, and extracting only the internal noise removed sound.
In the second embodiment, the internal noise removal sound is a sound (keyboard removal sound) obtained by removing the sound generated when the user operates a key of the keyboard 1305. The extracted internal noise removal sound (keyboard removal sound) is transmitted to the voice transmission device 1308.
The storage device 1306 stores a program for removing internal noise and data related to internal noise. The program stored in the storage device 1306 is the same as that in the first embodiment. The volatile memory 1307 is used to secure work memory during program execution.
The keyboard signal recognition device 1304 detects information indicating which key is operated when the keyboard 1305 is equipped. The detected information is transmitted to the central processing unit 1303.
The voice transmission device 1308 transmits the internal noise removal sound received from the central processing unit 1303 to the voice conference destination.
The voice receiving device 1309 receives a voice signal sent from the voice conference destination and transmits the received voice signal to the central processing unit 1303. The central processing unit 1303 transmits the received audio signal to the DA converter 1310.
The DA converter 1310 converts the received audio signal into an analog audio signal and transmits the analog audio signal to the speaker 1311.
The speaker 1311 reproduces the analog audio signal transmitted from the DA converter 1310. Note that analog audio signals reproduced from the speaker 1311 (referred to as speaker reproduction signals) are collected by the microphone array 1301. In this case, the speaker reproduction signal included in the sound collected by the microphone array 1301 is removed by an acoustic echo canceller process executed by the central processing unit 1303.
The internal noise removal apparatus 1300 may include at least one of a microphone array 1301, a keyboard signal recognition apparatus 1304, a keyboard 1305, an audio transmission apparatus 1308, an audio reception apparatus 1309, a DA conversion apparatus 1310, and a speaker 1311. Further, the AD conversion device 1302 or the storage device 1306 may be provided outside the internal noise removal device 1300.
FIG. 14 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the keyboard 1305 according to the second embodiment of this invention.
An internal noise signal is issued when each key of the keyboard 1305 is operated. The internal noise signal is defined so that an operation sound when any key of the keyboard 1305 is operated can be identified.
Specifically, the operation noise name 1400 is defined for the internal noise signal corresponding to the generation timing 1410. The operation sound name 1400 is an identifier for identifying the operation sound of the keyboard 1305. The generation timing 1410 indicates a timing at which internal noise corresponding to the operation sound name 1400 is generated.
FIG. 15 is a block diagram of processing executed by each device according to the second embodiment of this invention.
The sound collected by the microphone array 1301 is transmitted to the AD conversion device 1302. The AD conversion device 1302 executes AD conversion processing 1502 on the received audio signal, and converts the received audio signal into a digital signal. The AD converter 1302 transmits the digitized audio signal to the central processing unit 1303.
Note that the digitized audio signal includes the sound (acoustic echo) collected by the microphone array 1301 and the noise generated when the keyboard 1305 is operated, in addition to the voice emitted by the user. It is.
The central processing unit 1303 executes an echo canceller 1505 on the audio signal transmitted from the AD conversion device 1302.
The echo canceller 1505 removes the acoustic echo component using a general algorithm such as NLMS using the audio signal output from the speaker 1311 as a reference signal.
The sound signal from which the acoustic echo component has been removed is output to the internal noise removal processing 1503. The central processing unit 1303 performs internal noise removal processing 1503 on the audio signal from which the acoustic echo component has been removed, and removes the operation sound of the keyboard. Note that the internal noise removal processing 1503 has the same configuration as the internal noise removal processing 303 of the first embodiment.
The voice signal from which the internal noise has been removed is transmitted to the conference partner via the network by voice transmission 1508.
The voice of the conference partner is received by voice reception 1507 via the network. The received voice is transmitted to the DA converter 1310.
The DA converter 1310 converts the received voice into an analog voice signal by executing a DA conversion process 1504 on the received voice. Further, the DA converter 1310 transmits an analog audio signal to the speaker 1311.
The speaker 1311 reproduces the received analog audio signal.
FIG. 16 is an explanatory diagram illustrating an example of a user use scene in the audio conference system according to the second embodiment of this invention.
When the user operates a button arranged on the keyboard 1601, noise is generated from the operated button position. The generated noise is collected by the microphone array 1603 together with the voice of the user in the voice conference system. Note that the microphone array 1603 can be arranged on a display device 1602 of a personal computer, for example.
Third embodiment
Hereinafter, a third embodiment of the present invention will be described. The third embodiment of the present invention assumes an audio conference system including a touch panel. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
FIG. 17 is a block diagram of a hardware configuration of an internal noise removing device in an audio conference system including a touch panel according to the third embodiment of the present invention.
In the third embodiment, an audio conference system including an internal noise removal device 1700, a microphone array 1701, a touch position recognition device 1704, a touch panel 1705, an audio transmission device 1708, an audio reception device 1709, a DA conversion device 1710, and a speaker 1711. explain.
The internal noise removal device 1700 includes an AD conversion device 1702, a central processing unit 1703, a storage device 1706, and a volatile memory 1707.
The AD converter 1702 converts the analog signal input from the microphone array 1701 into a digital signal that can be processed by the central processing unit 1703. In the example illustrated in FIG. 17, an analog signal is input from the microphone array 1701 to the AD converter 1702.
The central processing unit 1703 executes various programs developed in the volatile memory 1707. Specifically, the central processing unit 1703 executes a process of removing internal noise from the digital signal after being digitally converted by the AD converter 1702 and extracting only the internal noise removed sound.
In the third embodiment, the internal noise removal sound is a sound (touch panel removal sound) obtained by removing the sound generated when the user operates the touch panel 1705. The extracted internal noise removal sound (touch panel removal sound) is transmitted to the voice transmission device 1708.
The storage device 1706 stores a program for removing internal noise and data related to internal noise. The program stored in the storage device 1706 is the same as that in the first embodiment. The volatile memory 1707 is used to secure work memory during program execution.
The touch position recognition device 1704 detects information about which position on the touch panel 1705 has been operated and when. The detected information is transmitted to the central processing unit 1703.
The voice transmission device 1708 transmits the internal noise-removed sound received from the central processing unit 1703 to the voice conference call destination.
The voice receiving device 1709 receives a voice signal sent from the voice conference destination and transmits the received voice signal to the central processing unit 1703. The central processing unit 1703 transmits the received audio signal to the DA converter 1710.
The DA converter 1710 converts the received audio signal into an analog audio signal and transmits the analog audio signal to the speaker 1711.
The speaker 1711 reproduces the analog audio signal transmitted from the DA converter 1710. Note that an analog audio signal reproduced from the speaker 1711 (hereinafter referred to as a speaker reproduction signal) is collected by the microphone array 1701. In this case, the speaker reproduction signal included in the sound collected by the microphone array 1701 is removed by acoustic echo canceller processing executed by the central processing unit 1703.
The internal noise removal apparatus 1700 may include at least one of a microphone array 1701, a touch position recognition apparatus 1704, a touch panel 1705, an audio transmission apparatus 1708, an audio reception apparatus 1709, a DA conversion apparatus 1710, and a speaker 1711. The AD conversion device 1702 or the storage device 1706 may be provided outside the internal noise removal device 1700.
FIG. 18 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the touch panel 1705 according to the third embodiment of this invention.
An internal noise signal is issued when each touch position on the touch panel 1705 is operated. The internal noise signal includes information by which it is possible to identify which position is the operation sound when operating the touch panel 1705 for each touch position.
Specifically, a touch position name 1800 is defined for the internal noise signal corresponding to the generation timing 1810. The touch position name 1800 is an identifier for identifying an operation sound for each touch position on the touch panel 1705. The generation timing 1810 indicates a timing at which internal noise corresponding to the touch position name 1800 is generated.
FIG. 19 is an explanatory diagram illustrating an example of a user use scene in the audio conference system including the touch panel 1705 according to the third embodiment of this invention.
The sound of operating the touch panel 1902 is collected by the microphone array 1901 together with the sound emitted by the user in the audio conference system.
Fourth embodiment
The fourth embodiment of the present invention will be described below. The fourth embodiment of the present invention assumes a robot (see FIG. 23) having a voice recognition function. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
Note that the robot 2201 of the fourth embodiment includes the internal noise removal device 100. Since the hardware configuration and processing configuration of the internal noise removal apparatus 100 are the same as those in the first embodiment, the description thereof is omitted.
FIG. 20 is a block diagram of a configuration of speech recognition processing including internal noise removal processing according to the fourth embodiment of this invention.
The internal noise removal apparatus 100 performs AD conversion processing 2002 on the audio signals collected by the microphone microphone array 2204 for voice recognition, and converts them into digital audio signals. The digital audio signal is output to the internal noise removal process 303.
The internal noise removal apparatus 100 executes an internal noise removal process 303, removes internal noise contained in the digital voice signal, and extracts only the voice of a person who is the target of voice recognition. The extracted voice is output to the voice recognition 2004.
In the speech recognition 2004, a feature amount extraction process such as general MFCC is executed, and a Viterbi decoding process of the acoustic model and the feature amount to be learned in advance is executed to recognize which speech is generated. take. The internal noise removal apparatus 100 outputs the recognition result and ends the process.
Fifth embodiment
The fifth embodiment of the present invention will be described below. The fifth embodiment of the present invention shows a modification of the noise covariance matrix and target sound covariance matrix estimation method and the noise suppression filter adaptation method. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
In the fifth embodiment, the apparatus configuration is the same as the hardware configuration and processing configuration of the first embodiment, and a description thereof will be omitted.
FIG. 21 is a block diagram showing details of the internal noise removal processing 303 according to the fifth embodiment of this invention.
The internal noise removal apparatus 100 performs multi-channel frequency analysis 2101 on the audio signal collected by the microphone array 101 for each frame, and converts it into a frequency domain signal. The converted frequency domain signal is output to the sound source direction estimation 2102 for each frequency.
The internal noise removal apparatus 100 performs sound source direction estimation 2102 on the frequency domain signal to identify the direction of the sound source. As the sound source direction estimation 2102, for example, a method using a GCC-PHAT method or a delay sum array method based on a phase difference between microphones can be considered.
In the sound source direction estimation 2102, the internal noise removal apparatus 100 sets a target sound direction in advance, and determines whether the sound source direction matches a predetermined target sound direction for each frame and each frequency.
When it is determined that the sound source direction matches the target sound direction, the internal noise removal apparatus 100 performs target sound adaptation 2103 on the sound with the sound of components (frame and frequency) satisfying the condition as the target sound. Specifically, the internal noise removal apparatus 100 uses the equation (5) to calculate the target sound covariance matrix R. s (F) is updated.
When the sound source direction does not coincide with the target sound direction, the internal noise removal apparatus 100 performs noise adaptation 2104 using the sound of components (frame and frequency) that do not satisfy the conditions as noise. Specifically, the internal noise removal apparatus 100 uses the noise covariance matrix R using Equation (13). b (F) is updated.
Figure 2011004503
In the internal noise addition 2105, the internal noise removal apparatus 100 adds a noise covariance matrix R to each noise covariance matrix corresponding to the internal noise signal. b Add (f).
In the filter adaptation 2106, the internal noise removal apparatus 100 performs the target sound covariance matrix and R b The noise covariance matrix added with (f) is substituted into equation (6) to generate a noise suppression filter.
According to an embodiment of the present invention, the internal noise removal apparatus 100 generates a plurality of noise covariance matrices according to the internal noise attributes such as the type of internal noise and the generation timing, and corresponds to the generated internal noise. A plurality of noise covariance matrices are selected, a plurality of noise suppression filters are generated from each noise covariance matrix, and an appropriate noise filter can be selected from the plurality of noise suppression filters. As a result, it is possible to appropriately remove noise even for non-stationary noise whose sound quality changes depending on the operating state of the actuator.
Further, noise can be accurately removed from operation sounds of the keyboard 1305 or the touch panel 1705 other than the operation sound of the actuator.

Claims (14)

複数のマイクロホンから構成されるマイクアレイによって収集された音から雑音を除去する雑音除去装置であって、
前記マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、
前記雑音除去装置は、マイクロプロセッサと、前記マイクロプロセッサに接続される記憶装置と、前記マイクロプロセッサに接続されるメモリと、前記マイクロプロセッサに接続され、前記アナログ信号をデジタル信号に変換するAD変換装置と、を備え、
前記記憶装置は、前記マイクアレイによって収集された音に含まれる雑音を除去するための雑音抑圧フィルタを生成する雑音抑圧フィルタ生成プログラムと、前記雑音抑圧フィルタを用いて、前記マイクアレイによって収集された音に含まれる雑音を除去する雑音除去プログラムとを格納し、
前記雑音除去装置は、
前記マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成し、
前記AD変換装置によって変換されたデジタル信号に前記各々の雑音抑圧フィルタを作用させ、雑音が除去されたデジタル信号の音量が最も小さくなる前記雑音抑圧フィルタを選択し、
前記選択された雑音抑圧フィルタを用いて、前記AD変換装置から入力されたデジタル信号から雑音を除去することを特徴とする雑音除去装置。
A noise removal device that removes noise from sound collected by a microphone array composed of a plurality of microphones,
The sound collected by the microphone array is input to the noise removing device as an analog signal,
The noise removing device includes a microprocessor, a storage device connected to the microprocessor, a memory connected to the microprocessor, and an AD conversion device connected to the microprocessor and converting the analog signal into a digital signal. And comprising
The storage device uses a noise suppression filter generation program for generating a noise suppression filter for removing noise included in the sound collected by the microphone array, and the noise suppression filter. Stores a noise removal program that removes noise contained in the sound,
The noise removing device includes:
Based on the noise included in the sound collected by the microphone array, a plurality of the noise suppression filters are generated,
Each noise suppression filter is allowed to act on the digital signal converted by the AD converter, and the noise suppression filter that minimizes the volume of the digital signal from which noise has been removed is selected.
A noise removing device that removes noise from a digital signal input from the AD converter using the selected noise suppression filter.
請求項1に記載の雑音除去装置であって、
前記AD変換装置から入力されたデジタル信号から除去される雑音は、前記マイクアレイによって収集された音に含まれる、所定の動作を実行する機器の動作音であること特徴とする雑音除去装置。
The noise removal device according to claim 1,
The noise removing apparatus, wherein the noise removed from the digital signal input from the AD conversion apparatus is an operation sound of a device that performs a predetermined operation included in the sound collected by the microphone array.
請求項2に記載の雑音除去装置であって、
前記雑音は、複数の属性を備え、
前記雑音除去装置は、
前記機器から発生する雑音の各属性に対応するデジタル信号に基づいて、クラスタリング処理を実行して前記機器から発生する雑音の属性毎に複数の第1の雑音共分散行列を生成し、
前記各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。
The noise removal device according to claim 2,
The noise has a plurality of attributes,
The noise removing device includes:
Based on a digital signal corresponding to each attribute of noise generated from the device, a clustering process is performed to generate a plurality of first noise covariance matrices for each noise attribute generated from the device,
A noise removing apparatus that generates the plurality of noise suppression filters using each of the first noise covariance matrices.
請求項3に記載の雑音除去装置であって、
前記雑音除去装置は、前記機器を制御する制御部を介して前記機器と接続され、
前記機器から発生する雑音の属性を示す情報が、前記制御部から前記雑音除去装置に入力され、
前記雑音除去装置は、
前記入力された雑音の属性に基づいて、前記雑音の属性に対応する前記複数の第1の雑音共分散行列を選択し、
前記選択された各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。
The noise removal device according to claim 3,
The noise removing device is connected to the device via a control unit that controls the device,
Information indicating the attribute of noise generated from the device is input from the control unit to the noise removal device,
The noise removing device includes:
Selecting the plurality of first noise covariance matrices corresponding to the noise attribute based on the input noise attribute;
A noise removal apparatus that generates the plurality of noise suppression filters using each of the selected first noise covariance matrices.
請求項4に記載の雑音除去装置であって、
前記AD変換装置から入力されたデジタル信号から目的共分散行列を生成し、
前記生成された目的共分散行列と前記選択された各々の第1の雑音共分散行列とを用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。
The noise removal device according to claim 4,
Generating a target covariance matrix from the digital signal input from the AD converter;
A noise removal apparatus that generates the plurality of noise suppression filters using the generated target covariance matrix and each of the selected first noise covariance matrices.
請求項3に記載の雑音除去装置であって、
前記機器から発生する雑音の属性は、前記雑音の発生源を特定する情報、雑音が発生している場合における前記雑音の発生源の状態、又は、前記雑音が発生したタイミングの少なくとも一つを含むことを特徴とする雑音除去装置。
The noise removal device according to claim 3,
The attribute of the noise generated from the device includes at least one of information for identifying the source of the noise, a state of the noise source when the noise is generated, or a timing at which the noise is generated. The noise removal apparatus characterized by the above-mentioned.
請求項3に記載の雑音除去装置であって、
前記マイクアレイによって収集された音の音源方向を推定し、
目的の音源方向以外から到来する音を雑音として前記目的の音源方向から到来した音から除去するための第2の雑音共分散行列を生成し、
前記第2の雑音共分散行列と前記各々の第1の雑音共分散行列とを足し合わせることによって、複数の第3の雑音共分散行列を生成し、
前記各々の第3の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。
The noise removal device according to claim 3,
Estimating the sound source direction of the sound collected by the microphone array;
Generating a second noise covariance matrix for removing sound arriving from other than the target sound source direction as noise from the sound arriving from the target sound source direction;
Generating a plurality of third noise covariance matrices by adding the second noise covariance matrix and each of the first noise covariance matrices;
A noise removal apparatus that generates the plurality of noise suppression filters using each of the third noise covariance matrices.
複数のマイクロホンから構成されるマイクアレイによって収集された音から雑音を除去する雑音除去装置における雑音除去方法であって、
前記マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、
前記雑音除去装置は、マイクロプロセッサと、前記マイクロプロセッサに接続される記憶装置と、前記マイクロプロセッサに接続されるメモリと、前記マイクロプロセッサに接続され、前記アナログ信号をデジタル信号に変換するAD変換装置と、を備え、
前記記憶装置は、前記マイクアレイによって収集された音から雑音を除去するための雑音抑圧フィルタを生成する雑音抑圧フィルタ生成プログラムと、前記雑音抑圧フィルタを用いて、前記マイクアレイによって集音された音から雑音を除去する雑音除去プログラムとを格納し、
前記方法は、
前記雑音除去装置が、前記マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成する第1のステップと、
前記雑音除去装置が、前記各々の雑音抑圧フィルタを前記デジタル信号に作用させて、雑音が除去されたデジタル信号の音量が最も小さくなる前記雑音抑圧フィルタを選択する第2のステップと、
前記雑音除去装置が、前記選択された雑音抑圧フィルタを用いて、前記AD変換装置から入力されたデジタル信号から雑音を除去する第3のステップと、を含むことを特徴とする雑音除去方法。
A noise removal method in a noise removal apparatus for removing noise from sound collected by a microphone array composed of a plurality of microphones,
The sound collected by the microphone array is input to the noise removing device as an analog signal,
The noise removing device includes a microprocessor, a storage device connected to the microprocessor, a memory connected to the microprocessor, and an AD conversion device connected to the microprocessor and converting the analog signal into a digital signal. And comprising
The storage device uses a noise suppression filter generation program for generating a noise suppression filter for removing noise from the sound collected by the microphone array, and a sound collected by the microphone array using the noise suppression filter. A noise removal program that removes noise from
The method
A first step of generating a plurality of the noise suppression filters based on noise included in the sound collected by the microphone array;
A second step in which the noise removing device operates the respective noise suppression filters on the digital signal to select the noise suppression filter with the smallest volume of the digital signal from which noise has been removed;
The noise removal method includes: a third step of removing noise from the digital signal input from the AD converter using the selected noise suppression filter.
請求項8に記載の雑音除去方法であって、
前記AD変換装置から入力されたデジタル信号から除去される雑音は、前記マイクアレイによって集音された音に含まれる、所定の動作を実行する機器の動作音であることを特徴とする雑音除去方法。
The noise removal method according to claim 8, comprising:
The noise removed from the digital signal input from the AD converter is an operation sound of a device that performs a predetermined operation included in the sound collected by the microphone array. .
請求項9に記載の雑音除去方法であって、
前記雑音は、複数の属性を備え、
前記第1のステップは、
前記雑音除去装置が、前記機器から発生する雑音の各属性に対応するデジタル信号に基づいて、クラスタリング処理を実行して前記機器から発生する雑音の属性毎に複数の第1の雑音共分散行列を生成する第4のステップと、
前記雑音除去装置が、前記各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成する第5のステップと、を含むことを特徴とする雑音除去方法。
The noise removal method according to claim 9, comprising:
The noise has a plurality of attributes,
The first step includes
The noise removal apparatus performs a clustering process based on a digital signal corresponding to each attribute of noise generated from the device, and generates a plurality of first noise covariance matrices for each attribute of noise generated from the device. A fourth step of generating;
And a fifth step of generating the plurality of noise suppression filters using each of the first noise covariance matrices.
請求項10に記載の雑音除去方法であって、
前記雑音除去装置は、前記機器を制御する制御部を介して前記機器と接続され、
前記機器から発生する雑音の属性を示す情報が、前記制御部から前記雑音除去装置に入力され、
前記第4のステップは、
前記雑音除去装置が、前記入力された機器から発生する雑音の属性に基づいて、前記機器から発生する雑音の属性に対応する前記複数の第1の雑音共分散行列を選択する第6のステップと、
前記雑音除去装置が、前記選択された各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成する第7のステップと、を含むことを特徴とする雑音除去方法。
The noise removal method according to claim 10, comprising:
The noise removing device is connected to the device via a control unit that controls the device,
Information indicating the attribute of noise generated from the device is input from the control unit to the noise removal device,
The fourth step includes
A sixth step in which the noise removing device selects the plurality of first noise covariance matrices corresponding to the attribute of the noise generated from the device based on the attribute of the noise generated from the input device; ,
And a seventh step of generating the plurality of noise suppression filters using each of the selected first noise covariance matrices. 7. A noise removal method, comprising:
請求項11に記載の雑音除去方法であって、
前記第5のステップは、
前記雑音除去装置が、前記AD変換装置から入力されたデジタル信号から目的共分散行列を生成する第8のステップと、
前記雑音除去装置が、前記生成された目的共分散行列と、前記第6のステップにおいて選択された各々の第1の雑音共分散行列とを用いて、前記複数の雑音抑圧フィルタを生成する第9のステップと、を含むことを特徴とする雑音除去方法。
The noise removal method according to claim 11, comprising:
The fifth step includes
An eighth step in which the noise removing device generates a target covariance matrix from the digital signal input from the AD converter;
The noise removal apparatus generates a plurality of noise suppression filters using the generated target covariance matrix and each first noise covariance matrix selected in the sixth step. And a noise removal method comprising the steps of:
請求項10に記載の雑音除去方法であって、
前記機器から発生する雑音の属性は、前記雑音の発生源を特定する情報、雑音が発生している場合における前記雑音の発生源の状態、又は、前記雑音が発生したタイミングの少なくとも一つを含むことを特徴とする雑音除去方法。
The noise removal method according to claim 10, comprising:
The attribute of the noise generated from the device includes at least one of information for identifying the source of the noise, a state of the noise source when the noise is generated, or a timing at which the noise is generated. A noise removal method characterized by the above.
請求項10に記載の雑音除去方法であって、
さらに、前記雑音除去装置が、前記マイクアレイによって収集された音の音源方向を推定する第10のステップと、
前記雑音除去装置が、目的の音源方向以外から到来する音を雑音として前記目的の音源方向から到来した音から除去するための第2の雑音共分散行列を生成する第11のステップと、
前記雑音除去装置が、前記第2の雑音共分散行列と前記各々の第1の雑音共分散行列とを足し合わせて、複数の第3の雑音共分散行列を生成する第12のステップと、
前記雑音除去装置が、前記各々の第3の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成する第13のステップと、を含むことを特徴とする雑音除去方法。
The noise removal method according to claim 10, comprising:
Further, a tenth step in which the noise removing device estimates a sound source direction of sound collected by the microphone array;
An eleventh step in which the noise removing device generates a second noise covariance matrix for removing, as noise, sound arriving from a direction other than the target sound source direction from sound arriving from the target sound source direction;
A twelfth step in which the noise removing device generates a plurality of third noise covariance matrices by adding the second noise covariance matrix and the first noise covariance matrix;
And a thirteenth step of generating the plurality of noise suppression filters using each of the third noise covariance matrices. 13. A noise removal method, comprising:
JP2011521766A 2009-07-08 2009-07-08 Noise removing apparatus and noise removing method Expired - Fee Related JP5382745B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/062772 WO2011004503A1 (en) 2009-07-08 2009-07-08 Noise removal device and noise removal method

Publications (2)

Publication Number Publication Date
JPWO2011004503A1 true JPWO2011004503A1 (en) 2012-12-13
JP5382745B2 JP5382745B2 (en) 2014-01-08

Family

ID=43428940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011521766A Expired - Fee Related JP5382745B2 (en) 2009-07-08 2009-07-08 Noise removing apparatus and noise removing method

Country Status (2)

Country Link
JP (1) JP5382745B2 (en)
WO (1) WO2011004503A1 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5017441B2 (en) * 2010-10-28 2012-09-05 株式会社東芝 Portable electronic devices
WO2013007070A1 (en) 2011-07-08 2013-01-17 歌尔声学股份有限公司 Method and device for suppressing residual echo
JP5731929B2 (en) * 2011-08-08 2015-06-10 日本電信電話株式会社 Speech enhancement device, method and program thereof
JP6586907B2 (en) * 2016-03-07 2019-10-09 株式会社リコー Information processing apparatus, conference system, and control method for information processing apparatus
JP6733450B2 (en) * 2016-09-15 2020-07-29 株式会社リコー Video conferencing device, information processing method and program
CN109427328B (en) * 2017-08-28 2023-04-28 中国科学院声学研究所 Multichannel voice recognition method based on filter network acoustic model
CN112889110A (en) * 2018-10-15 2021-06-01 索尼公司 Audio signal processing apparatus and noise suppression method
CN109757359B (en) * 2019-03-20 2022-07-19 湖北中香农业科技股份有限公司 Method for cultivating high-quality fragrant long-grain japonica rice
CN114464203B (en) * 2022-01-18 2022-10-25 小米汽车科技有限公司 Noise filtering method, device, system, vehicle and storage medium

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5972295A (en) * 1982-10-18 1984-04-24 Nippon Telegr & Teleph Corp <Ntt> Multipoint sound receiving device
JP3878892B2 (en) * 2002-08-21 2007-02-07 日本電信電話株式会社 Sound collection method, sound collection device, and sound collection program
US7716044B2 (en) * 2003-02-07 2010-05-11 Nippon Telegraph And Telephone Corporation Sound collecting method and sound collecting device
JP4561222B2 (en) * 2004-07-30 2010-10-13 日産自動車株式会社 Voice input device
JP4568193B2 (en) * 2005-08-29 2010-10-27 日本電信電話株式会社 Sound collecting apparatus and method, program and recording medium
JP2007295085A (en) * 2006-04-21 2007-11-08 Kobe Steel Ltd Sound source separation apparatus, and sound source separation method
JP4910568B2 (en) * 2006-08-25 2012-04-04 株式会社日立製作所 Paper rubbing sound removal device

Also Published As

Publication number Publication date
JP5382745B2 (en) 2014-01-08
WO2011004503A1 (en) 2011-01-13

Similar Documents

Publication Publication Date Title
JP5382745B2 (en) Noise removing apparatus and noise removing method
JP5897343B2 (en) Reverberation parameter estimation apparatus and method, dereverberation / echo cancellation parameter estimation apparatus, dereverberation apparatus, dereverberation / echo cancellation apparatus, and dereverberation apparatus online conference system
CN112447191B (en) Signal processing device and signal processing method
CN107393550B (en) Voice processing method and device
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
JP5550456B2 (en) Reverberation suppression apparatus and reverberation suppression method
JP5000647B2 (en) Multi-sensor voice quality improvement using voice state model
JP5231139B2 (en) Sound source extraction device
WO2021022094A1 (en) Per-epoch data augmentation for training acoustic models
JPH1115491A (en) Environmentally compensated method of processing speech
JP2005084253A (en) Sound processing apparatus, method, program and storage medium
JP5027127B2 (en) Improvement of speech intelligibility of mobile communication devices by controlling the operation of vibrator according to background noise
JP3434215B2 (en) Sound pickup device, speech recognition device, these methods, and program recording medium
JP2013012841A (en) Echo canceller, and method and program therefor
JP4891805B2 (en) Reverberation removal apparatus, dereverberation method, dereverberation program, recording medium
JP4505597B2 (en) Noise removal device
JP6439174B2 (en) Speech enhancement device and speech enhancement method
JP4729534B2 (en) Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof
JP4464797B2 (en) Speech recognition method, apparatus for implementing the method, program, and recording medium therefor
WO2021070278A1 (en) Noise suppressing device, noise suppressing method, and noise suppressing program
JP2012168345A (en) Mechanical sound removal device, mechanical sound detection device, and video imaging apparatus
JP4242320B2 (en) Voice recognition method, apparatus and program thereof, and recording medium thereof
JP5172797B2 (en) Reverberation suppression apparatus and method, program, and recording medium
JP5885686B2 (en) Acoustic model adaptation apparatus, acoustic model adaptation method, and program
CN117292691A (en) Audio energy analysis method and related device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130925

R150 Certificate of patent or registration of utility model

Ref document number: 5382745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees