JPWO2011004503A1 - Noise removing apparatus and noise removing method - Google Patents
Noise removing apparatus and noise removing method Download PDFInfo
- Publication number
- JPWO2011004503A1 JPWO2011004503A1 JP2011521766A JP2011521766A JPWO2011004503A1 JP WO2011004503 A1 JPWO2011004503 A1 JP WO2011004503A1 JP 2011521766 A JP2011521766 A JP 2011521766A JP 2011521766 A JP2011521766 A JP 2011521766A JP WO2011004503 A1 JPWO2011004503 A1 JP WO2011004503A1
- Authority
- JP
- Japan
- Prior art keywords
- noise
- sound
- internal noise
- generated
- noise removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 72
- 230000001629 suppression Effects 0.000 claims abstract description 108
- 239000011159 matrix material Substances 0.000 claims description 62
- 230000008569 process Effects 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 description 41
- 230000005236 sound signal Effects 0.000 description 26
- 238000001914 filtration Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011410 subtraction method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Manipulator (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
複数のマイクロホンから構成されるマイクアレイによって収集された音から雑音を除去する雑音除去装置であって、マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、雑音除去装置は、マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成し、AD変換装置によって変換されたデジタル信号に各々の雑音抑圧フィルタを作用させ、雑音が除去されたデジタル信号の音量が最も小さくなる雑音抑圧フィルタを選択し、選択された雑音抑圧フィルタを用いて、AD変換装置から入力されたデジタル信号から雑音を除去することを特徴とする。A noise removing device that removes noise from sound collected by a microphone array composed of a plurality of microphones, wherein the sound collected by the microphone array is input as an analog signal to the noise removing device, A plurality of the noise suppression filters are generated based on the noise included in the sound collected by the microphone array, and each noise suppression filter is applied to the digital signal converted by the AD converter to remove the noise. A noise suppression filter that minimizes the volume of the digital signal is selected, and noise is removed from the digital signal input from the AD converter using the selected noise suppression filter.
Description
本発明は、複数のマイクロホンを用いて収集された音の中から、特定の音のみ抽出する雑音抑圧技術に関する。 The present invention relates to a noise suppression technique for extracting only a specific sound from sounds collected using a plurality of microphones.
一般に、複数のマイクロホンを用いて収集された音の中から、特定の方向の音を抽出する技術として、最小分散ビームフォーマ法(例えば、O.L.Frost,III,“Analgorithm for linearly constrained adaptive array processing,“In Proc.IEEE,vol.60,no.8,pp.926−935,1972.参照)などがある。最小分散ビームフォーマ法は、複数のマイクロホンから入力される入力信号に対して、空間的な指向特性を持つ線形フィルタを作用させることによって、特定方向の信号(音)のみ抽出する技術である。
しかし、最小分散ビームフォーマ法では、ロボット内部のアクチュエータの動作音などの内部から到来する雑音に対しては、アクチュエータの動作状態に応じて空間的な音源位置が時々刻々変化するため、空間的な死角を精度良く構成することが困難となり、抑圧性能が低いという問題があった。
また、単一マイクロホンでも適用可能なスペクトルサブトラクション法という雑音抑圧方式がある(例えば、S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.ASSP,Vol.27,No.2,pp.113−120,1979.参照)。スペクトルサブトラクション法は、空間的な指向特性を用いて雑音を除去するのではなく、雑音の統計量を推定し、比較的振幅特性が定常な雑音を除去する技術である。
しかし、スペクトルサブトラクション法では、雑音の振幅特性が非定常な雑音である場合、除去性能が劣化するだけでなく、取得したい音声が大きく劣化する。例えば、ロボット内部のアクチュエータの動作音は、アクチュエータの動作状態によって音質が変化する非定常な雑音であるため、前述した問題が生じる。In general, as a technique for extracting a sound in a specific direction from sounds collected using a plurality of microphones, a minimum dispersion beamformer method (for example, OL Forst, III, “Analgorithm for linearly aligned adaptive array”). processing, "In Proc. IEEE, vol. 60, no. 8, pp. 926-935, 1972.). The minimum dispersion beamformer method is a technique for extracting only a signal (sound) in a specific direction by applying a linear filter having spatial directivity to input signals input from a plurality of microphones.
However, with the minimum dispersion beamformer method, the spatial sound source position changes from moment to moment according to the operating state of the actuator for noise coming from inside such as the operating noise of the actuator inside the robot. There was a problem that it was difficult to configure the blind spot with high accuracy and the suppression performance was low.
In addition, there is a noise suppression method called a spectral subtraction method that can be applied to a single microphone (for example, SF Boll, “Suppression of acoustic noise in spectral subtraction,” IEEE Trans. ASSP, Vol. 27, No. 27). 2, pp. 113-120, 1979.). The spectral subtraction method is a technique for estimating noise statistics and removing noise with relatively steady amplitude characteristics, instead of removing noise using spatial directivity characteristics.
However, in the spectral subtraction method, when the amplitude characteristic of noise is non-stationary noise, not only the removal performance is degraded, but also the voice to be acquired is greatly degraded. For example, the operation sound of the actuator inside the robot is a non-stationary noise whose sound quality changes depending on the operation state of the actuator, and thus the above-described problem occurs.
ロボットのアクチュエータ動作音など、ロボット内部で生じる音源位置や音源の振幅特性が時々刻々と変化する非定常な雑音を高精度に除去することが課題である。
本発明の代表的な一例を示せば以下の通りである。すなわち、複数のマイクロホンから構成されるマイクアレイによって収集された音から雑音を除去する雑音除去装置であって、前記マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、前記雑音除去装置は、マイクロプロセッサと、前記マイクロプロセッサに接続される記憶装置と、前記マイクロプロセッサに接続されるメモリと、前記マイクロプロセッサに接続され、前記アナログ信号をデジタル信号に変換するAD変換装置と、を備え、前記記憶装置は、前記マイクアレイによって収集された音に含まれる雑音を除去するための雑音抑圧フィルタを生成する雑音抑圧フィルタ生成プログラムと、前記雑音抑圧フィルタを用いて、前記マイクアレイによって収集された音に含まれる雑音を除去する雑音除去プログラムとを格納し、前記雑音除去装置は、前記マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成し、前記AD変換装置によって変換されたデジタル信号に前記各々の雑音抑圧フィルタを作用させ、雑音が除去されたデジタル信号の音量が最も小さくなる前記雑音抑圧フィルタを選択し、前記選択された雑音抑圧フィルタを用いて、前記AD変換装置から入力されたデジタル信号から雑音を除去することを特徴とする。
本発明によれば、雑音の属性に応じて、正確に雑音を除去することが可能となる。The problem is to remove with high accuracy non-stationary noise, such as the actuator operating sound of the robot, that changes the position of the sound source generated inside the robot and the amplitude characteristics of the sound source.
A typical example of the present invention is as follows. That is, a noise removing device that removes noise from sound collected by a microphone array composed of a plurality of microphones, wherein the sound collected by the microphone array is input to the noise removing device as an analog signal, The noise removing device includes a microprocessor, a storage device connected to the microprocessor, a memory connected to the microprocessor, an AD converter connected to the microprocessor and converting the analog signal into a digital signal, The storage device includes a noise suppression filter generation program for generating a noise suppression filter for removing noise included in the sound collected by the microphone array, and the microphone array using the noise suppression filter. Noise to remove noise contained in the sound collected by The noise removal device generates a plurality of the noise suppression filters based on the noise included in the sound collected by the microphone array, and converts the noise into a digital signal converted by the AD conversion device. Each of the noise suppression filters is operated to select the noise suppression filter that minimizes the volume of the digital signal from which noise has been removed, and is input from the AD converter using the selected noise suppression filter It is characterized by removing noise from a digital signal.
According to the present invention, noise can be accurately removed in accordance with noise attributes.
図1は、本発明の第1の実施形態の内部雑音除去装置のハードウェア構成のブロック図である。
図2は、本発明の第1の実施形態の記憶装置に格納されたプログラムの一例のブロック図である。
図3は、本発明の内部雑音除去装置が実行する処理の一例のブロック図である。
図4は、本発明の第1の実施形態の内部雑音除去処理の詳細のブロック図である。
図5は、本発明の第1の実施形態の内部雑音シグナルの一例を示す説明図である。
図6は、本発明の第1の実施形態の内部雑音の種類の一例を示す説明図である。
図7は、本発明の第1の実施形態における3つのアクチュエータの動作状態に応じた内部雑音シグナルの種類を定義する一例のタイミングチャートである。
図8は、本発明の第1の実施形態のパワー最小化フィルタリングの処理のフローチャートである。
図9は、本発明の第1の実施形態における目的音共分散更新、雑音抑圧フィルタ更新、雑音共分散行列選択、及び内部雑音の発生状況の一例のタイミングチャートである。
図10は、本発明の第1の実施形態の雑音共分散推定処理の詳細を説明するブロック図である。
図11は、本発明の第1の実施形態のベクトルVq,j(z,τ)のデータ構造を示す説明図である。
図12は、本発明の第1の実施形態のクラスタリングにおける処理の詳細のフローチャートである。
図13は、本発明の第2の実施形態の音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
図14は、本発明の第2の実施形態のキーボードの操作音に対応する内部雑音シグナルの一例を示す説明図である。
図15は、本発明の第2の実施形態の各装置が実行する処理のブロック図である。
図16は、本発明の第2の実施形態の音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
図17は、本発明の第3の実施形態のタッチパネルを備える音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
図18は、本発明の第3の実施形態のタッチパネルの操作音に対応する内部雑音シグナルの一例を示す説明図である。
図19は、本発明の第3の実施形態のタッチパネルを備える音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
図20は、本発明の第4の実施形態の内部雑音除去処理を含む音声認識の処理の構成のブロック図である。
図21は、本発明の第5の実施形態の実施形態の内部雑音除去処理の詳細のブロック図である。
図22は、本発明の第1の実施形態のインデックスInd(j,τ)の一例を示す説明図である。
図23は、本発明における音声認識機能を備えるロボットの一例を示す説明図である。
図24は、本発明におけるプロジェクタを備えるビデオ会議システムの機器構成を示す説明図である。
図25は、本発明におけるプロジェクタから発生する雑音の一例を示す説明図である。FIG. 1 is a block diagram of a hardware configuration of an internal noise removal apparatus according to the first embodiment of the present invention.
FIG. 2 is a block diagram of an example of a program stored in the storage device according to the first embodiment of this invention.
FIG. 3 is a block diagram showing an example of processing executed by the internal noise removal apparatus of the present invention.
FIG. 4 is a detailed block diagram of the internal noise removal processing according to the first embodiment of this invention.
FIG. 5 is an explanatory diagram illustrating an example of an internal noise signal according to the first embodiment of this invention.
FIG. 6 is an explanatory diagram illustrating an example of types of internal noise according to the first embodiment of this invention.
FIG. 7 is an example timing chart that defines the types of internal noise signals corresponding to the operating states of the three actuators according to the first embodiment of the present invention.
FIG. 8 is a flowchart of power minimization filtering processing according to the first embodiment of this invention.
FIG. 9 is a timing chart showing an example of the target sound covariance update, noise suppression filter update, noise covariance matrix selection, and internal noise generation status in the first embodiment of the present invention.
FIG. 10 is a block diagram illustrating details of the noise covariance estimation process according to the first embodiment of this invention.
FIG. 11 is an explanatory diagram illustrating a data structure of the vector V q, j (z, τ) according to the first embodiment of this invention.
FIG. 12 is a flowchart illustrating details of processing in clustering according to the first embodiment of this invention.
FIG. 13 is a block diagram of a hardware configuration of an internal noise removal device in the audio conference system according to the second embodiment of this invention.
FIG. 14 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the keyboard according to the second embodiment of this invention.
FIG. 15 is a block diagram of processing executed by each device according to the second embodiment of this invention.
FIG. 16 is an explanatory diagram illustrating an example of a user use scene in the audio conference system according to the second embodiment of this invention.
FIG. 17 is a block diagram of a hardware configuration of an internal noise removing device in an audio conference system including a touch panel according to the third embodiment of the present invention.
FIG. 18 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the touch panel according to the third embodiment of this invention.
FIG. 19 is an explanatory diagram illustrating an example of a user use scene in the audio conference system including the touch panel according to the third embodiment of this invention.
FIG. 20 is a block diagram of a configuration of speech recognition processing including internal noise removal processing according to the fourth embodiment of this invention.
FIG. 21 is a block diagram showing details of the internal noise removal processing according to the fifth embodiment of the present invention.
FIG. 22 is an explanatory diagram illustrating an example of the index Ind (j, τ) according to the first embodiment of this invention.
FIG. 23 is an explanatory diagram showing an example of a robot having a voice recognition function according to the present invention.
FIG. 24 is an explanatory diagram showing a device configuration of a video conference system including a projector according to the present invention.
FIG. 25 is an explanatory diagram showing an example of noise generated from the projector in the present invention.
本発明は、音声認識機能を備えるロボットやプロジェクタを備えるビデオ会議システムのように、音声収録機能を備えるシステムにおいて、アクチュエータ等から発生する雑音を効率的に除去するものである。
図23は、本発明における音声認識機能を備えるロボットの一例を示す説明図である。
本発明の雑音除去機構は、例えば、図23に示すような音声認識機能を備えるロボット2201に実装される。
ロボット2201は、ロボット2201の腕を制御するための腕制御アクチュエータ2202と、ロボット2201の脚を制御するための脚制御アクチュエータ2203とを備える。また、ロボット2201は、当該ロボット2201と対話するユーザの音声を認識するための音声認識用マイクロホンアレイ2204を備える。
通常、音声認識では、周りの音が一切混入していないユーザ音声のみがマイクロホンアレイ2204によって収集される。したがって、周りの音が混入した音がマイクロホンアレイ2204によって収集された場合、音声認識の性能が劣化することが知られている。
図23に示すロボット2201においては、腕制御アクチュエータ2202及び脚制御アクチュエータ2203の動作音が含まれるユーザ音声がマイクロホンによって収集される。
また、腕制御アクチュエータ2202及び脚制御アクチュエータ2203の動作音は、腕や脚が移動することによって、動作音が発生する位置が変化する。また、腕制御アクチュエータ2202及び脚制御アクチュエータ2203の動作音は、各アクチュエータの動作開始、動作中、又は動作終了時にも変化する。
本発明では、アクチュエータの動作音など機器の内部で発生する音を効率良く除去する。
図24は、本発明におけるプロジェクタを備えるビデオ会議システムの機器構成を示す説明図である。
拠点Aでは、マイクアレイ2301によって拠点Aで発話した人の音声が収集され、収集された音声の情報が計算機2305に送信される。
計算機2305は、マイクアレイ2301によって収集された音の中から拠点Aで発話した人の声だけを抽出し、ネットワーク2306を介して、抽出された音声を他の拠点Bに送信する。また、拠点Aのカメラ2304によって撮影された拠点Aの風景も同様に拠点Bに送信される。
拠点Bでは、受信した音声やカメラ2304で撮影された画像が計算機2305に取り込まれる。カメラ2304によって撮影された画像は、プロジェクタ2303に投影される。受信した音声は、スピーカ2302で再生される。
同様に拠点Bに設置されたマイクアレイ2301によって収集された音声及びカメラ2304によって撮影された画像は、計算機2305に取り込まれた後、ネットワーク2306を介して、拠点Aに送信される。
拠点Aでは、拠点Bの場合と同様に、カメラ2304によって撮影された画像がプロジェクタ2303に投影され、受信した音声がスピーカ2302で再生される。
図24に示す会議システムにおいて、プロジェクタ2303から発生するファンノイズなどの雑音が、マイクアレイ2301によって収集される音に混入するという問題がある。
図25は、本発明におけるプロジェクタ2303から発生する雑音の一例を示す説明図である。
プロジェクタ2303から発生する雑音は、プロジェクタ2303が動作するタイミング毎に固有の音が発生する。プロジェクタ2303から発生する各雑音には、発生タイミング2410に対応し、動作音名称2400が定義される。動作音名称2400は、プロジェクタ2303から発生する雑音を識別するための識別子である。発生タイミング2410は、動作音名称2400に対応する雑音が発生するタイミングを示す。
図25に示す例では、動作音名称2400として「プロジェクタ起動音」及び「プロジェクタ動作音」がある。また、「プロジェクタ起動音」の発生タイミング2410は「プロジェクタ起動時」であり、「プロジェクタ動作音」の発生タイミング2410は「プロジェクタ動作時」である。
以下の説明において、前述したようなロボット2201のアクチュエータの動作音やプロジェクタ2303のファンノイズなど機器内部で発生する内部雑音を除去するための構成及び方法について説明する。
第1の実施形態
図1は、本発明の第1の実施形態の内部雑音除去装置のハードウェア構成のブロック図である。
第1の実施形態では、内部雑音除去装置100、マイクアレイ101、アクチュエータ制御装置104、及びアクチュエータ105を備える機器について説明する。
内部雑音除去装置100は、AD変換装置102、中央演算装置103、記憶装置106、及び揮発性メモリ107を備える。
AD変換装置102は、入力されたアナログ信号を中央演算装置103が処理可能なデジタル信号に変換する。図1に示す例では、マイクアレイ101から入力されたアナログ信号がAD変換装置102に入力される。
中央演算装置103は、揮発性メモリ107に展開された各種プログラムを実行する。具体的には、中央演算装置103は、AD変換装置102によってデジタル変換された後のデジタル信号から内部雑音を除去し、所望の音声(以下、内部雑音除去音と記載する)のみを抽出する。抽出された内部雑音除去音は、外部の内部雑音除去音を再生する装置(図示省略)に出力され、当該装置によって再生される。
記憶装置106は、内部雑音を除去するためのプログラムや、内部雑音に関するデータを格納する。記憶装置106に格納されるプログラムについては、図2を用いて後述する。揮発性メモリ107は、プログラム実行中のワークメモリを確保するために用いられる。
アクチュエータ制御装置104は、アクチュエータ105を制御する装置である。例えば、音声認識装置を備えるロボット2201の腕や足に設置されたアクチュエータ(腕制御アクチュエータ2202及び脚制御アクチュエータ2203)を制御する。アクチュエータ制御装置104は、アクチュエータ制御信号に基づいてアクチュエータ105を制御する。
アクチュエータ105は、例えば、音声認識装置を備えるロボット2201の腕や足などに設置されたアクチュエータ(腕制御アクチュエータ2202及び脚制御アクチュエータ2203)である。アクチュエータ105が動作するときに発生する音が伝搬し、マイクアレイ101によって収集される。
なお、マイクアレイ101によって収集される音は、音声処理アプリケーション(図示省略)が必要とする所望の音とアクチュエータが動作するときに発生する雑音(以下、内部雑音と記載する)とが混在する。
なお、内部雑音除去装置100は、マイクアレイ101、アクチュエータ制御装置104、及びアクチュエータ105の少なくとも一つを備えてもよい。また、AD変換装置102又は記憶装置106は、内部雑音除去装置100の外部に備わってもよい。
図2は、本発明の第1の実施形態の記憶装置106に格納されたプログラムの一例のブロック図である。
記憶装置106は、共分散行列学習プログラム1061、及び雑音抑圧プログラム1062を格納する。
共分散行列学習プログラム1061は、雑音抑圧フィルタを生成するために用いられる共分散行列を生成するためのプログラムである。雑音抑圧プログラム1062は、マイクアレイ101によって収集された音に対して最適な雑音抑圧フィルタを選択し、内部雑音を除去するためのプログラムである。
なお、記憶装置106は、他のプログラムを格納してもよい。
図3は、本発明の内部雑音除去装置100が実行する処理の一例のブロック図である。
内部雑音除去装置100は、雑音共分散推定処理301と内部雑音除去処理303とを実行する。具体的には、中央演算装置103が共分散行列学習プログラム1061を実行することによって、雑音共分散推定処理301が実行される。また、中央演算装置103が雑音抑圧プログラム1062を実行することによって、内部雑音除去処理303が実行される。
雑音共分散推定処理301は、雑音共分散行列を算出するための処理である。具体的には、内部雑音に関する情報を含む内部雑音シグナルが中央演算装置103に入力され、入力された内部雑音シグナルに基づいて雑音共分散行列が算出される。なお、内部雑音シグナルに含まれる内部雑音に関する情報には、内部雑音の種類及び内部雑音が発生したタイミング等の内部雑音の属性に関する情報が含まれる。
雑音共分散推定処理301は、内部雑音の属性毎に、当該内部雑音の統計量(雑音共分散行列)を算出する処理である。なお、具体的な雑音共分散行列の算出方法は、図10を用いて後述する。
算出された雑音共分散行列は、揮発性メモリ107又は記憶装置106に格納される。以下、揮発性メモリ107又は記憶装置106に格納されている雑音共分散行列を雑音共分散行列DB302と記載する。
内部雑音除去装置100は、予め収集された内部雑音に対して、雑音共分散推定処理301を実行する、いわゆるキャリブレーション処理をしておくことが望ましい。
内部雑音除去処理303は、マイクアレイ101によって収集された内部雑音と目的とする音とが混在した音から内部雑音を除去するための処理である。
具体的には、内部雑音除去装置100が、実際にマイクアレイ101によって収集された内部雑音と目的とする音とが混在した音に対して、雑音共分散行列DB302を用いて内部雑音を除去し、目的音のみが抽出された音を出力する。なお、内部雑音除去処理303の詳細は、図4を用いて後述する。
図4は、本発明の第1の実施形態の内部雑音除去処理303の詳細のブロック図である。
内部雑音除去処理303は、多チャンネル周波数分析401、目的音共分散更新403、雑音抑圧フィルタ更新404、雑音抑圧フィルタリング405、雑音共分散行列選択406、及びパワー最小化フィルタリング408を含み、各処理は、中央演算装置103によって実行される。
デジタル化された入力信号を各チャンネル毎に、一定サンプル(フレームシフト:Lshift)得られる度に内部雑音除去処理303が実行される。なお、本実施形態においては、Lshiftは数十ms程度の時間長に設定する。
例えば、AD変換装置102のサンプリングレートが8kHzの場合、Lshiftは256ポイント程度に設定する。以下、一定のフレームシフト量のサンプルが得られる度に実行される処理をフレーム処理と記載する。
1つのフレーム処理では、各マイクロホンから入力される入力信号毎に、当該入力信号が入力された時点の過去フレームサイズのサンプル(Lframe)に対して処理が実行される。ここで、フレーム番号を表すインデックスをτとする。
τフレームでは、マイクロホン毎に、(τ×Lshift)ポイントから(τ×Lshift+Lframe−1)ポイント目までのデジタル信号が処理される。ここで、pは、τフレーム目の先頭ポイントからのポイント数を表すインデックスとする。
内部雑音除去装置100には、m番目のマイクロホンから式(1)で示す入力信号が入力される。
まず、多チャンネル周波数分析401では、内部雑音除去装置100が、各マイクロホンから入力された入力信号のうちp=0からp=Lframe−1ポイントのデータに対して、式(2)で示す離散フーリエ変換を実行する。
式(2)によって、各マイクロホンの時間周波数領域信号xm(f,τ)が得られる。ここで、fは周波数を表し、窓関数w(p)は、例えば、式(3)で示すようなハニング窓のようなものとする。
なお、離散フーリエ変換は、高速フーリエ変換のようなアルゴリズムを用いてもよい。
各マイクロホン毎の時間周波数領域信号は、式(4)に示すように周波数毎にまとめられて処理される。
ここで、Mはマイクロホン数とする。Tはベクトル又は行列の転置を表す演算子とする。
以下、内部雑音除去装置100は、式(4)に示すような各周波数毎まとめられた信号に対して、目的音共分散更新403、雑音抑圧フィルタ更新404、雑音抑圧フィルタリング405、雑音共分散行列選択406、及びパワー最小化フィルタリング408を実行する。
目的音共分散更新403では、内部雑音除去装置100が、式(5)を用いて目的音共分散行列Rs(f)を更新する。
ここで、αは更新係数であり、0から1までの値をとる。*は行列又はベクトルの転置を表す。
また、内部雑音除去装置100は、内部雑音シグナルを参照し、内部雑音が発生していないときに目的音共分散更新403を実行する。内部雑音が発生しているときには、目的音共分散行列は更新されず、内部雑音が発生する前の値が保持される。なぜなら、内部雑音が発生しているときに目的音共分散行列が更新されると、目的音共分散行列中に内部雑音の情報が混入し、雑音抑圧フィルタリング405において、雑音が抑圧されず、逆に強調されてしまうからである。
図5は、本発明の第1の実施形態の内部雑音シグナルの一例を示す説明図である。
内部雑音シグナルには、発生タイミング510に対応し、内部雑音シグナル名称500が定義される。内部雑音シグナル名称500は、内部雑音を識別するための識別子である。発生タイミング510は、内部雑音シグナル名称500に対応する内部雑音が発生するタイミングを示す。
図5に示す例では、内部雑音シグナル名称500として「内部雑音発生」及び「内部雑音終了」がある。また、「内部雑音発生」の発生タイミング510は「内部雑音が生じたタイミング」であり、「内部雑音終了」の発生タイミング510は「内部雑音が止まったタイミング」である。
つまり、内部雑音が生じたタイミングで出力される内部雑音シグナルと、内部雑音が止まったタイミングで出力される内部雑音シグナルとがあることがわかる。
前述した二つの内部雑音シグナルは、さらに、内部雑音の種類を示す情報がそれぞれ含まれる。
図6は、本発明の第1の実施形態の内部雑音の種類の一例を示す説明図である。なお、図6は、内部雑音シグナル名称500が「内部雑音発生」である内部雑音の種類の一例を示す。
内部雑音の種類には、発生タイミング610に対応し、動作音名称600が定義される。動作音名称600は、アクチュエータ105の動作によって発生する内部雑音を識別する識別子である。発生タイミング610は、動作音名称600に対応する内部雑音が発生するタイミングである。
例えば、動作音名称600が「モータ1」の動作音は、モータ1の駆動時に発生する動作音として定義される。同様に、動作音名称600が「モータ2」の動作音は、モータ2の駆動時に発生する動作音として定義される。
また、モータ1とモータ2との動作音が同時に存在する場合の動作音は、動作音名称600が「モータ1・2」であり、モータ1及びモータ2の動作音とは異なる動作音として定義される。
図7は、本発明の第1の実施形態における3つのアクチュエータの動作状態に応じた内部雑音シグナルの種類を定義する一例のタイミングチャートである。
図7に示す例では、モータ1のみが動作を開始した場合、動作音名称600は「モータ1」と定義される。モータ2のみが動作を開始した場合、動作音名称600は「モータ2」と定義される。モータ3のみが動作を開始した場合、動作音名称600は「モータ3」と定義される。モータ1及びモータ2が動作を開始した場合、動作音名称600は「モータ1・2」と定義される。
図4の説明に戻る。
雑音共分散行列選択406では、内部雑音除去装置100が、入力された内部雑音シグナルに基づいて、雑音共分散行列DB302が格納された記憶装置106又は揮発性メモリ107から雑音共分散行列Rn(f)を選択し、選択された雑音共分散行列Rn(f)を雑音抑圧フィルタ更新404に出力する。なお、雑音共分散行列選択406において、一つの内部雑音シグナルに対応する雑音共分散行列DB302が複数ある場合、内部雑音除去装置100は、複数の内部雑音行列Rn(f)を選択してもよい。
雑音抑圧フィルタ更新404では、内部雑音除去装置100が、目的音共分散行列Rs(f)と雑音共分散行列Rn(f)とを用いて、雑音抑圧フィルタwi(f)を生成する。例えば、式(6)を用いて雑音抑圧フィルタwi(f)が生成される。
ここで、maxeigは、最大固有値を与える固有ベクトルを算出する演算子である。
また、iは、i番目の雑音共分散行列を示す。つまり、雑音共分散行列選択406において、複数の内部雑音行列Rn(f)が選択された場合、内部雑音除去装置100は、各々の雑音共分散行列毎に雑音抑圧フィルタを生成する。
雑音抑圧フィルタリング405では、内部雑音除去装置100が、式(7)に示しように、各雑音共分散行列に対応する雑音抑制フィルタwi(f)を入力信号x(f,τ)に作用させ、雑音抑圧後の信号yi(f,τ)を算出する。
内部雑音除去装置100は、雑音抑圧信号yi(f,τ)をパワー最小化フィルタリング408に出力する。
内部雑音除去装置100は、内部雑音が発生していない間、雑音抑圧フィルタリング405を実行しない。なお、内部雑音が発生していない間、内部雑音除去装置100は、多チャンネル周波数分析401において、いずれか一つのマイクロホンから入力される入力信号を雑音抑圧信号yi(f,τ)としてパワー最小化フィルタリング408に出力してもよい。
パワー最小化フィルタリング408では、内部雑音除去装置100が、雑音抑圧フィルタリング405から入力された雑音抑圧信号yi(f,τ)の絶対値|yi(f,τ)|の2乗が、最小となる雑音抑圧信号ymin(f,τ)を算出する。
また、内部雑音除去装置100は、絶対値|yi(f,τ)|の代わりに、式(8)に示すようにパワーの移動平均から算出されたPi(f,τ)が最小となる雑音抑圧信号yi(f,τ)を雑音抑圧信号ymin(f,τ)として算出してもよい。
ここで、βは移動平均を算出するための係数であり、0から1までの値をとる。
図8は、本発明の第1の実施形態のパワー最小化フィルタリング408の処理のフローチャートである。
初期化801では、内部雑音除去装置100が、各種変数を初期値に設定する。具体的には、内部雑音除去装置100は、雑音抑圧フィルタのインデックスiを「0」に設定し、|y0(f,τ)|の2乗を最小値Pminに設定し、Pminを最小とする雑音抑圧フィルタのインデックスiminを「0」に設定する。内部雑音除去装置100は、各種変数を初期値に設定した後、判定805に進む。
判定805では、内部雑音除去装置100が、雑音抑圧フィルタのインデックスiが全雑音抑圧フィルタ数imaxより大きいか否かを判定する。つまり、全ての雑音抑圧フィルタに対して処理が終了したか否かを判定する。
雑音抑圧フィルタのインデックスiが全雑音抑圧フィルタ数imax以下であると判定された場合、内部雑音除去装置100は、雑音抑圧フィルタリング802に進む。
雑音抑圧フィルタリング802では、内部雑音除去装置100が、各雑音抑圧フィルタを入力信号x(f,τ)に作用させ、雑音抑圧信号yi(f,τ)を算出し、判定803に進む。
判定803では、内部雑音除去装置100が、雑音抑圧信号yi(f,τ)の絶対値の2乗がPminより小さいか否かを判定する。なお、i=0の場合、判定803では、内部雑音除去装置100が、Pminの判定を行わず、雑音フィルタのインデックスiを「1」に更新してから判定805に戻り、次の雑音抑圧フィルタについて同様の処理を実行する。
雑音が除去された雑音抑圧信号yi(f,τ)の絶対値の2乗がPmin以上であると判定された場合、内部雑音除去装置100は、iをi+1に更新してから判定805に戻り、次の雑音抑圧フィルタについて同様の処理を実行する。
雑音抑圧信号yi(f,τ)の絶対値の2乗がPminより小さいと判定された場合、内部雑音除去装置100は、最小値更新804に進む。
最小値更新804では、内部雑音除去装置100が、Pmin及びiminを更新し、さらに、iをi+1に更新してから判定805に戻り、次の雑音抑圧フィルタについて処理を実行する。
判定805において、雑音抑圧フィルタのインデックスiが全雑音抑圧フィルタ数imaxより大きいと判定された場合、内部雑音除去装置100は、全ての雑音抑圧フィルタについて処理が完了したと判定し、Pminとなる雑音抑圧フィルタのインデックスi及び雑音抑圧信号yi(f,τ)を、imin及び雑音抑圧信号ymin(f,τ)として時間領域変換409に出力し、処理を終了する。
前述した処理によって、内部雑音除去装置100は、マイクアレイ101から入力された信号に雑音抑圧フィルタを作用させた後の音量が最小となる雑音抑圧フィルタ、及び雑音抑圧後の音量が最小となる出力信号を取得することができる。
つまり、本実施形態では、内部雑音の種類及び発生タイミング等の各属性毎に複数の雑音抑圧フィルタが生成され、当該雑音抑圧フィルタのうち、雑音が抑圧された後の音量が最も小さくなる雑音抑圧フィルタを選択することができる。したがって、正確に雑音を除去することが可能となる。
時間領域変換409では、内部雑音除去装置100が、周波数毎に算出された雑音抑圧信号ymin(f,τ)に対して式(9)に示す逆フーリエ変換を実行することによって、時間領域の雑音抑圧信号ymin(p)を算出する。
ここで、fmaxはサンプリングレートの0.5倍に相当する周波数とする。
時間領域変換409では、内部雑音除去装置100が、時間領域の雑音抑圧信号ymin(p)に窓関数の逆数に相当する関数を作用させたものをフレーム間で加算した最終的な信号を出力する。
図9は、本発明の第1の実施形態における目的音共分散更新403、雑音抑圧フィルタ更新404、雑音共分散行列選択406、及び内部雑音の発生状況の一例のタイミングチャートである。
図9に示すように内部雑音が発生していない時間帯に、目的音共分散更新403が実行される。当該時間帯には、雑音抑圧フィルタ更新404、及び雑音共分散行列選択406は実行されない。
内部雑音が発生した場合、内部雑音が発生した時に、アクチュエータ制御装置104から内部雑音発生シグナルが出力される。なお、出力される内部雑音発生シグナルには、内部雑音が発生したタイミング、及び内部雑音の種類等の内部雑音の属性が含まれる。
内部雑音発生シグナルは、アクチュエータ制御装置104に送信される駆動信号を用いる方法が考えられる。つまり、アクチュエータ制御装置104に送信される駆動信号が内部雑音発生シグナルとして中央演算装置103に入力される。
例えば、「A」という種類の内部雑音が発生した場合、内部雑音Aの発生シグナルが雑音共分散行列選択406に入力される。また、雑音抑圧フィルタ更新404にも目的音共分散更新403を介して内部雑音Aの発生シグナルが入力される。
雑音共分散行列選択406では、内部雑音除去装置100が、入力された内部雑音Aに相当する雑音共分散行列を雑音共分散行列DB302から読み出す。
雑音抑圧フィルタ更新404では、内部雑音除去装置100が、目的音共分散行列と内部雑音Aに相当する雑音共分散行列とから雑音抑圧フィルタを生成する。雑音抑圧フィルタは、例えば、式(6)を用いて生成される。
内部雑音Aの発生中、内部雑音除去装置100は、毎フレーム、雑音抑圧フィルタ更新404を実行してもよい。なお、内部雑音Aの発生中には、目的音共分散更新403は実行されない。
内部雑音Aの終了シグナルが目的音共分散更新403に入力された時に、内部雑音除去装置100は、再び、目的音共分散更新403を再開する。
以下、雑音共分散推定処理301の詳細について説明する。
図10は、本発明の第1の実施形態の雑音共分散推定処理301の詳細を説明するブロック図である。
雑音共分散推定処理301は、多チャンネル周波数分析1001、特徴量抽出1002、特徴量ベクトル生成1003、クラスタリング1004、及び雑音共分散更新1005を含み、各処理は、中央演算装置103によって実行される。
なお、本実施形態では、雑音共分散推定処理301の実行時には、内部雑音の属性毎に学習用の内部雑音信号が予め用意されている。予め用意された学習用の内部雑音信号には雑音が発生した時間帯(タイミング)が含まれており、雑音共分散推定処理301は、該当する時間帯(タイミング)の内部雑音信号のみ抽出して学習することができる。なお、予め用意された学習用の内部雑音信号は、複数存在してもよい。
多チャンネル周波数分析1001では、内部雑音除去装置100が、各内部雑音信号をフレーム毎に周波数領域信号x(f,τ)に変換する。ここで、内部雑音の種類を表すインデックスをq、内部雑音qの複数の内部雑音信号を表すインデックスをj、内部雑音qのj番目の信号のフレームτの周波数領域信号をxq,j(f,τ)と記載する。
特徴量抽出1002では、内部雑音除去装置100が、式(10)を用いてxq,j(f,τ)から特徴量Vq,j(f,τ)を生成する。
特徴量ベクトル生成1003では、内部雑音除去装置100が、まず各周波数をZ個のサブグループに分ける。ここで、zはサブグループを表すインデックスとする。
特徴量ベクトル生成1003では、内部雑音除去装置100が、サブグループzに属する同一フレームτの特徴量Vq,j(f,τ)を連結して一つのベクトルVq,j(z,τ)を生成する。
図11は、本発明の第1の実施形態のベクトルVq,j(z,τ)のデータ構造を示す説明図である。
図11に示すように、ベクトルVq,j(z,τ)は、各周波数毎の特徴量Vq,j(f,τ)を要素に持つベクトルである。
クラスタリング1004では、内部雑音除去装置100が、サブグループ毎に、内部雑音qの学習用の全信号及び全フレームのデータに対して、クラスタリング処理を実行する。具体的には、内部雑音除去装置100は、信号インデックス及びフレームインデックス毎にその信号及びフレームの特徴量の属するクラスタを定義するインデックスInd(j,τ)を出力する。
図22は、本発明の第1の実施形態のインデックスInd(j,τ)の一例を示す説明図である。
クラスタリング1004が実行された結果、内部雑音信号には、内部雑音の各時間毎にインデックスInd(j,τ)が付与される。
図22に示す例では、内部雑音信号にA〜CのインデックスInd(j,τ)が付与される。
雑音共分散更新1005では、内部雑音除去装置100が、クラスc毎に式(11)を用いて、そのクラスタに属する特徴量を算出するときに用いられた入力データx(f,τ)から周波数毎の共分散行列を算出する。
クラスタの数が、雑音共分散行列及び雑音抑圧フィルタの数となる。なお、クラスタの数は予め設定されてもよい。
雑音共分散更新1005では、内部雑音除去装置100が、内部雑音信号毎に算出された雑音共分散行列を記憶装置106又は揮発性メモリ107に雑音共分散行列DB302として格納し、処理を終了する。
図12は、本発明の第1の実施形態のクラスタリング1004における処理の詳細のフローチャートである。
以下、内部雑音の種類を表すインデックスq及びサブグループのインデックスzを省略して表記する。また、τをτ=j*T+τと変数変換する。ここで、Tは各内部雑音信号のフレーム数である。
初期化1201では、内部雑音除去装置100が、各クラスタのセントロイドC(c)に特徴量V(τ)の一つをランダムに設定する。ここで、randomは全ての内部雑音信号及び全てのフレームのうちいずれか一つをランダムに選択する変数である。また、クラスタリング1004は、変数endを「FALSE」に、Indpre(τ)を「0」に初期化する。
判定1202では、内部雑音除去装置100が、変数endが終了状態を示す「TURE」であるか否かを判定する。
変数endが終了状態を示す「TURE」であると判定された場合、内部雑音除去装置100は、処理を終了する。
変数endが終了状態を示す「TURE」でないと判定された場合、内部雑音除去装置100は、初期化1203に進む。
初期化1203では、内部雑音除去装置100が、インデックスτを最も小さい値「1」に初期化し、判定1204に進む。
判定1204では、内部雑音除去装置100が、インデックスτが最大値Tmax以下であるか否かを判定する。
インデックスτが最大値Tmax以下であると判定された場合、内部雑音除去装置100は、初期化1205に進む。
初期化1205では、内部雑音除去装置100が、変数Ind(τ)を「1」に、クラスタのインデックスcを「1」に、また変数minを「−1」を初期化し、判定1206に進む。
判定1206では、内部雑音除去装置100が、クラスタのインデックスcがクラスタ数C以下であるか否かを判定する。
クラスタのインデックスcがクラスタ数Cより大きいと判定された場合、内部雑音除去装置100は、τをτ+1に更新し、判定1204に戻る。
クラスタのインデックスcがクラスタ数C以下であると判定された場合、内部雑音除去装置100は、距離計算1207に進む。
距離計算1207では、内部雑音除去装置100が、関数Dを用いて、各クラスタのセントロイドC(c)と特徴量V(τ)との距離を算出し、判定1208に進む。関数Dは、例えば、|C(c)−V(τ)|等が考えられる。算出された距離は変数disに入力される。
判定1208では、内部雑音除去装置100が、変数disが変数minより小さいか否かを判定する。
変数disが変数min以上と判定された場合、内部雑音除去装置100は、クラスタのインデックスcをc+1に更新し、判定1206に戻る。
変数disが変数minより小さいと判定された場合、内部雑音除去装置100は、最小値置換1209に進む。
最小値置換1209では、内部雑音除去装置100が、Ind(τ)をクラスタのインデックスcに置き換える。また、内部雑音除去装置100は、変数minを変数disに置き換える。内部雑音除去装置100は、その後、クラスタのインデックスcをc+1に更新し、判定1206に戻る。
判定1204において、インデックスτが最大値Tmaxより大きいと判定された場合、内部雑音除去装置100は、更新1210に進む。
更新1210では、内部雑音除去装置100が、(12)を用いて、セントロイドC(c)を更新する。具体的には、各クラスタのセントロイドC(c)を超えた、セントロイドの更新は、各クラスタにおける特徴量V(τ)の平均値を算出することによって実行される。
更新の後、内部雑音除去装置100は、判定1211に進む。
判定1211では、内部雑音除去装置100が、全てのインデックスτに対して、Indpre(τ)とInd(τ)とが等しいか否かを判定する。
判定1211の条件を満たさないと判定された場合、内部雑音除去装置100は、全てのインデックスτについてIndpre(τ)にInd(τ)を代入し、判定1202に戻る。
全てのインデックスτに対して、Indpre(τ)とInd(τ)とが等しいと判定された場合、内部雑音除去装置100は、変数endを「TURE」に設定して、判定1202に戻る。
第2の実施形態
以下、本発明の第2の実施形態について説明する。本発明の第2の実施形態は、音声会議システムを想定したものである。以下、本発明の第1の実施形態との差異を中心に説明する。
図13は、本発明の第2の実施形態の音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
第2の実施形態では、内部雑音除去装置1300、マイクアレイ1301、キーボード信号認識装置1304、キーボード1305、音声送信装置1308、音声受信装置1309、DA変換装置1310、及びスピーカ1311を備える音声会議システムについて説明する。
内部雑音除去装置1300は、AD変換装置1302、中央演算装置1303、記憶装置1306、及び揮発性メモリ1307を備える。
AD変換装置1302は、マイクアレイ1301から入力されたアナログ信号を中央演算装置1303が処理可能なデジタル信号に変換する。図13に示す例では、アナログ信号がマイクアレイ1301からAD変換装置1302に入力される。
中央演算装置1303は、揮発性メモリ1307に展開された各種プログラムを実行する。具体的には、中央演算装置1303は、AD変換装置1302によってデジタル変換された後のデジタル信号から内部雑音を除去し、内部雑音除去音のみを抽出する処理を実行する。
第2の実施形態では、内部雑音除去音は、ユーザがキーボード1305のキーを操作した時に発生する音を除去した音(キーボード除去音)とする。抽出された内部雑音除去音(キーボード除去音)は、音声送信装置1308に送信される。
記憶装置1306は、内部雑音を除去するためのプログラムや、内部雑音に関するデータを格納する。記憶装置1306に格納されるプログラムは、第1の実施形態と同一である。揮発性メモリ1307は、プログラム実行中のワークメモリを確保するために用いられる。
キーボード信号認識装置1304は、キーボード1305が備えるキーのうち、どのキーが、いつ操作されたかという情報を検出する。検出された情報は、中央演算装置1303に送信される。
音声送信装置1308は、中央演算装置1303から受信した内部雑音除去音を音声会議の通話先に送信する。
音声受信装置1309は、音声会議の通話先より送られてきた音声信号を受信し、受信した音声信号を中央演算装置1303に送信する。中央演算装置1303は、受信した音声信号をDA変換装置1310に送信する。
DA変換装置1310は、受信した音声信号をアナログの音声信号に変換し、スピーカ1311に送信する。
スピーカ1311は、DA変換装置1310から送信されたアナログの音声信号を再生する。なお、スピーカ1311から再生されるアナログの音声信号(スピーカ再生信号と記載する)は、マイクアレイ1301によって収集される。この場合、マイクアレイ1301によって収集された音に含まれるスピーカ再生信号は、中央演算装置1303が実行する音響エコーキャンセラ処理によって除去される。
なお、内部雑音除去装置1300は、マイクアレイ1301、キーボード信号認識装置1304、キーボード1305、音声送信装置1308、音声受信装置1309、DA変換装置1310、及びスピーカ1311の少なくとも一つを備えてもよい。また、AD変換装置1302又は記憶装置1306は、内部雑音除去装置1300の外部に備わってもよい。
図14は、本発明の第2の実施形態のキーボード1305の操作音に対応する内部雑音シグナルの一例を示す説明図である。
内部雑音シグナルは、キーボード1305のそれぞれのキーを操作した時に発行される。内部雑音シグナルは、キーボード1305のどのキーを操作した時の動作音がを識別できるように定義されている。
具体的には、内部雑音シグナルには、発生タイミング1410に対応し、動作音名称1400が定義される。動作音名称1400は、キーボード1305の操作音を識別するための識別子である。発生タイミング1410は、動作音名称1400に対応する内部雑音が発生するタイミングを示す。
図15は、本発明の第2の実施形態の各装置が実行する処理のブロック図である。
マイクアレイ1301によって収集された音声は、AD変換装置1302に送信される。AD変換装置1302は、受信した音声信号に対してAD変換処理1502を実行し、受信した音声信号をデジタル信号に変換する。AD変換装置1302は、デジタル化された音声信号を中央演算装置1303に送信する。
なお、デジタル化された音声信号には、ユーザが発した音声のほか、スピーカ1311から出力される音声がマイクアレイ1301によって収集された音(音響エコー)やキーボード1305の操作時に発生する雑音が含まれる。
中央演算装置1303は、AD変換装置1302から送信された音声信号に対して、エコーキャンセラ1505を実行する。
エコーキャンセラ1505では、スピーカ1311から出力される音声信号を参照信号として、NLMSなどの一般的なアルゴリズムを用いて音響エコー成分が除去される。
音響エコー成分が除去された音声信号は、内部雑音除去処理1503に出力される。中央演算装置1303は、音響エコー成分が除去された音声信号に対して内部雑音除去処理1503を実行し、キーボードの操作音を除去する。なお、内部雑音除去処理1503は、第1の実施形態の内部雑音除去処理303と同一の構成である。
内部雑音が除去された音声信号は、音声送信1508でネットワークを介して会議相手に送信される。
会議相手の音声は、ネットワークを介し、音声受信1507で受信する。受信した音声は、DA変換装置1310に送信される。
DA変換装置1310は、受信した音声に対してDA変換処理1504を実行することによって、受信した音声をアナログの音声信号に変換する。また、DA変換装置1310は、アナログの音声信号をスピーカ1311に送信する。
スピーカ1311は、受信したアナログの音声信号を再生する。
図16は、本発明の第2の実施形態の音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
キーボード1601上に配置されるボタンをユーザが操作した場合、操作されたボタン位置から雑音が発生する。発生した雑音は、音声会議システムにおけるユーザの発声音声と共にマイクロホンアレイ1603によって収集される。なお、マイクロホンアレイ1603は、例えば、パーソナルコンピュータの表示装置1602の上に配置することが考えられる。
第3の実施形態
以下、本発明の第3の実施形態について説明する。本発明の第3の実施形態は、タッチパネルを備える音声会議システムを想定したものである。以下、本発明の第1の実施形態との差異を中心に説明する。
図17は、本発明の第3の実施形態のタッチパネルを備える音声会議システムにおける内部雑音除去装置のハードウェア構成のブロック図である。
第3の実施形態では、内部雑音除去装置1700、マイクアレイ1701、タッチ位置認識装置1704、タッチパネル1705、音声送信装置1708、音声受信装置1709、DA変換装置1710、及びスピーカ1711を備える音声会議システムについて説明する。
内部雑音除去装置1700は、AD変換装置1702、中央演算装置1703、記憶装置1706、及び揮発性メモリ1707を備える。
AD変換装置1702は、マイクアレイ1701から入力されたアナログ信号を中央演算装置1703が処理可能なデジタル信号に変換する。図17に示す例では、マイクアレイ1701からアナログ信号がAD変換装置1702に入力される。
中央演算装置1703は、揮発性メモリ1707に展開された各種プログラムを実行する。具体的には、中央演算装置1703は、AD変換装置1702によってデジタル変換された後のデジタル信号から内部雑音を除去し、内部雑音除去音のみを抽出する処理を実行する。
第3の実施形態では、内部雑音除去音は、ユーザがタッチパネル1705を操作した時に発生する音を除去した音(タッチパネル除去音)とする。抽出された内部雑音除去音(タッチパネル除去音)は、音声送信装置1708に送信される。
記憶装置1706は、内部雑音を除去するためのプログラムや、内部雑音に関するデータを格納する。記憶装置1706に格納されるプログラムは、第1の実施形態と同一である。揮発性メモリ1707は、プログラム実行中のワークメモリを確保するために用いられる。
タッチ位置認識装置1704は、タッチパネル1705のどの位置が、いつ操作されたかの情報を検出する。検出された情報は、中央演算装置1703に送信される。
音声送信装置1708は、中央演算装置1703から受信した内部雑音除去音を音声会議の通話先に送信する。
音声受信装置1709は、音声会議の通話先より送られてきた音声信号を受信し、受信した音声信号を中央演算装置1703に送信する。中央演算装置1703は、受信した音声信号をDA変換装置1710に送信する。
DA変換装置1710は、受信した音声信号をアナログの音声信号に変換し、スピーカ1711に送信する。
スピーカ1711は、DA変換装置1710から送信されたアナログの音声信号を再生する。なお、スピーカ1711から再生されるアナログの音声信号(以下、スピーカ再生信号と記載する)は、マイクアレイ1701によって収集される。この場合、マイクアレイ1701によって収集された音に含まれるスピーカ再生信号は、中央演算装置1703が実行する音響エコーキャンセラ処理によって除去される。
なお、内部雑音除去装置1700は、マイクアレイ1701、タッチ位置認識装置1704、タッチパネル1705、音声送信装置1708、音声受信装置1709、DA変換装置1710、及びスピーカ1711の少なくとも一つを備えてもよい。また、AD変換装置1702又は記憶装置1706は、内部雑音除去装置1700の外部に備わってもよい。
図18は、本発明の第3の実施形態のタッチパネル1705の操作音に対応する内部雑音シグナルの一例を示す説明図である。
内部雑音シグナルは、タッチパネル1705のそれぞれのタッチ位置を操作した時に発行される。内部雑音シグナルには、タッチパネル1705のタッチ位置毎にどの位置を操作した時の操作音であるかを識別できるよる情報が含まれる。
具体的には、内部雑音シグナルには、発生タイミング1810に対応し、タッチ位置名称1800が定義される。タッチ位置名称1800は、タッチパネル1705のタッチ位置毎の操作音を識別するための識別子である。発生タイミング1810は、タッチ位置名称1800に対応する内部雑音が発生するタイミングを示す。
図19は、本発明の第3の実施形態のタッチパネル1705を備える音声会議システムにおけるユーザ使用シーンの一例を示す説明図である。
タッチパネル1902を操作した音は、音声会議システムにおけるユーザが発する音声と共にマイクロホンアレイ1901によって収集される。
第4の実施形態
以下、本発明の第4の実施形態について説明する。本発明の第4の実施形態は、音声認識の機能を備えるロボット(図23参照)を想定したものである。以下、本発明の第1の実施形態との差異を中心に説明する。
なお、第4の実施形態のロボット2201は、内部雑音除去装置100を備える。内部雑音除去装置100のハードウェア構成及び処理構成は第1の実施形態と同一であるため説明を省略する。
図20は、本発明の第4の実施形態の内部雑音除去処理を含む音声認識の処理の構成のブロック図である。
内部雑音除去装置100は、音声認識用マイクホンアレイ2204によって収集された音声信号に対しAD変換処理2002を実行し、デジタル音声信号に変換する。デジタル音声信号は、内部雑音除去処理303に出力される。
内部雑音除去装置100は、内部雑音除去処理303を実行し、デジタル音声信号中に含まれる内部雑音を除去し、音声認識の対象である人の音声のみ抽出する。抽出された音声は音声認識2004に出力される。
音声認識2004では、一般的なMFCCなどの特徴量抽出処理が実行され、予め学習する音響モデルと特徴量とのビタビデコーディング処理が実行され、どの音声が発生したかを認識するような構成を取る。内部雑音除去装置100は、認識結果を出力し、処理を終了する。
第5の実施形態
以下、本発明の第5の実施形態について説明する。本発明の第5の実施形態は、雑音共分散行列及び目的音共分散行列の推定方法及び雑音抑圧フィルタの適応方法の変形例を示す。以下、本発明の第1の実施形態との差異を中心に説明する。
なお、第5の実施形態は、装置構成は第1の実施形態のハードウェア構成及び処理構成は同一であるため説明を省略する。
図21は、本発明の第5の実施形態の実施形態の内部雑音除去処理303の詳細のブロック図である。
内部雑音除去装置100は、フレーム毎に、マイクアレイ101によって収集された音声信号に対して多チャンネル周波数分析2101を実行し、周波数領域信号に変換する。変換された周波数領域信号は、各周波数毎に音源方向推定2102に出力される。
内部雑音除去装置100は、周波数領域信号に対し、音源方向推定2102を実行し、音源の方向が特定する。音源方向推定2102は、例えば、各マイクロホン間の位相差に基づくGCC−PHAT法や遅延和アレイ法などを用いる方法が考えられる。
内部雑音除去装置100は、音源方向推定2102において、予め目的音方向を設定しておき、フレーム毎及び周波数毎に、音源方向が予め設定された目的音方向と一致するか否かを判定する。
音源方向が目的音方向と一致すると判定された場合、内部雑音除去装置100は、条件を満たす成分(フレーム及び周波数)の音声を目的音として、当該音声に対して目的音適応2103を実行する。具体的には、内部雑音除去装置100は、式(5)を用いて目的音の共分散行列Rs(f)を更新する。
音源方向が目的音方向と一致しなかった場合、内部雑音除去装置100は、条件を満たさない成分(フレーム及び周波数)の音声を雑音として、雑音適応2104を実行する。具体的には、内部雑音除去装置100は、式(13)を用いて雑音共分散行列Rb(f)を更新する。
内部雑音追加2105では、内部雑音除去装置100が、内部雑音シグナルに対応する各雑音共分散行列に雑音共分散行列Rb(f)を加算する。
フィルタ適応2106では、内部雑音除去装置100が、目的音共分散行列とRb(f)が加算された雑音共分散行列とを式(6)に代入し、雑音抑圧フィルタを生成する。
本発明の一実施形態によれば、内部雑音除去装置100は、内部雑音の種類及び発生タイミング等の内部雑音の属性に応じて複数の雑音共分散行列を生成し、発生した内部雑音に対応した雑音共分散行列を複数選択し、各々の雑音共分散行列から複数の雑音抑圧フィルタを生成し、さらに、複数の雑音抑圧フィルタから適切な雑音フィルタを選択することができる。これによって、アクチュエータの動作状態によって音質が変化するような非定常な雑音に対しても適切に雑音を除去することが可能となる。
また、アクチュエータの動作音以外のキーボード1305又はタッチパネル1705等の操作音に対しても、正確に雑音を除去することができる。The present invention efficiently removes noise generated from an actuator or the like in a system having a voice recording function, such as a video conference system having a robot or projector having a voice recognition function.
FIG. 23 is an explanatory diagram showing an example of a robot having a voice recognition function according to the present invention.
The noise removal mechanism of the present invention is mounted on, for example, a robot 2201 having a voice recognition function as shown in FIG.
The robot 2201 includes an
Usually, in the speech recognition, only the user speech in which no surrounding sounds are mixed is collected by the microphone array 2204. Therefore, it is known that the performance of voice recognition is deteriorated when sounds mixed with surrounding sounds are collected by the microphone array 2204.
In the robot 2201 shown in FIG. 23, user sounds including operation sounds of the
The operation sound of the
In the present invention, sound generated inside the device, such as operation sound of the actuator, is efficiently removed.
FIG. 24 is an explanatory diagram showing a device configuration of a video conference system including a projector according to the present invention.
At the site A, the voice of the person uttered at the site A is collected by the
The computer 2305 extracts only the voice of a person uttered at the site A from the sounds collected by the
At the site B, the received voice and the image taken by the camera 2304 are taken into the computer 2305. An image photographed by the camera 2304 is projected on the projector 2303. The received sound is reproduced by the speaker 2302.
Similarly, audio collected by the
At the site A, as in the case of the site B, an image photographed by the camera 2304 is projected onto the projector 2303, and the received sound is reproduced by the speaker 2302.
In the conference system shown in FIG. 24, there is a problem that noise such as fan noise generated from the projector 2303 is mixed into the sound collected by the
FIG. 25 is an explanatory diagram showing an example of noise generated from the projector 2303 in the present invention.
As noise generated from the projector 2303, a unique sound is generated every time the projector 2303 operates. Each noise generated from the projector 2303 corresponds to the
In the example shown in FIG. 25, the
In the following description, a configuration and a method for removing internal noise generated inside the apparatus such as the operation sound of the actuator of the robot 2201 and the fan noise of the projector 2303 as described above will be described.
First embodiment
FIG. 1 is a block diagram of a hardware configuration of an internal noise removal apparatus according to the first embodiment of the present invention.
In the first embodiment, a device including the internal noise removing device 100, the microphone array 101, the
The internal noise removal device 100 includes an
The
The
The
The
The
Note that the sound collected by the microphone array 101 includes a desired sound required by a sound processing application (not shown) and noise generated when the actuator operates (hereinafter referred to as internal noise).
The internal noise removal device 100 may include at least one of the microphone array 101, the
FIG. 2 is a block diagram illustrating an example of a program stored in the
The
The covariance
Note that the
FIG. 3 is a block diagram illustrating an example of processing executed by the internal noise removal apparatus 100 according to the present invention.
The internal noise removal apparatus 100 executes a noise
The noise
The noise
The calculated noise covariance matrix is stored in the
The internal noise removal apparatus 100 desirably performs a so-called calibration process for executing the noise
The internal noise removal process 303 is a process for removing the internal noise from the sound in which the internal noise collected by the microphone array 101 and the target sound are mixed.
Specifically, the internal noise removing apparatus 100 removes the internal noise using the noise
FIG. 4 is a detailed block diagram of the internal noise removal processing 303 according to the first embodiment of this invention.
The internal noise removal processing 303 includes
The digitized input signal is sampled for each channel (frame shift: L shift ) The internal noise removal process 303 is executed whenever it is obtained. In the present embodiment, L shift Is set to a time length of about several tens of ms.
For example, when the sampling rate of the
In one frame process, for each input signal input from each microphone, a sample of the past frame size at the time when the input signal was input (L frame ) Is executed. Here, an index representing the frame number is τ.
In the τ frame, for each microphone, (τ × L shift ) From the point (τ × L shift + L frame -1) The digital signal up to the point is processed. Here, p is an index representing the number of points from the first point of the τ frame.
The internal noise removal apparatus 100 receives an input signal represented by Expression (1) from the mth microphone.
First, in the
According to equation (2), the time frequency domain signal x of each microphone m (F, τ) is obtained. Here, f represents a frequency, and the window function w (p) is, for example, a Hanning window as shown in Expression (3).
The discrete Fourier transform may use an algorithm such as a fast Fourier transform.
The time frequency domain signals for each microphone are processed for each frequency as shown in Equation (4).
Here, M is the number of microphones. T is an operator representing transposition of a vector or matrix.
Hereinafter, the internal noise removal apparatus 100 performs the target
In the target
Here, α is an update coefficient and takes a value from 0 to 1. * Represents matrix or vector transpose.
Also, the internal noise removal apparatus 100 refers to the internal noise signal and executes the target
FIG. 5 is an explanatory diagram illustrating an example of an internal noise signal according to the first embodiment of this invention.
The internal
In the example shown in FIG. 5, the internal
That is, it can be seen that there are an internal noise signal output at the timing when the internal noise occurs and an internal noise signal output at the timing when the internal noise stops.
Each of the two internal noise signals described above further includes information indicating the type of internal noise.
FIG. 6 is an explanatory diagram illustrating an example of types of internal noise according to the first embodiment of this invention. FIG. 6 shows an example of the types of internal noise whose internal
For the type of internal noise, an
For example, an operation sound whose operation
In addition, the operation sound when the operation sounds of the
FIG. 7 is an example timing chart that defines the types of internal noise signals corresponding to the operating states of the three actuators according to the first embodiment of the present invention.
In the example illustrated in FIG. 7, when only the
Returning to the description of FIG.
In the noise
In the noise suppression filter update 404, the internal noise removal apparatus 100 performs the target sound covariance matrix R. s (F) and noise covariance matrix R n (F) and the noise suppression filter w i (F) is generated. For example, using expression (6), the noise suppression filter w i (F) is generated.
Here, maxeig is an operator that calculates an eigenvector that gives the maximum eigenvalue.
I represents the i-th noise covariance matrix. That is, in the noise
In the noise suppression filtering 405, the internal noise removal apparatus 100 performs the noise suppression filter w corresponding to each noise covariance matrix as shown in the equation (7). i (F) is made to act on the input signal x (f, τ), and the signal y after noise suppression i (F, τ) is calculated.
The internal noise removal apparatus 100 is configured to generate a noise suppression signal y i (F, τ) is output to the power minimization filtering 408.
The internal noise removal apparatus 100 does not execute the noise suppression filtering 405 while the internal noise is not generated. While the internal noise is not generated, the internal noise removal apparatus 100 uses the
In the power minimization filtering 408, the internal noise removal apparatus 100 receives the noise suppression signal y input from the noise suppression filtering 405. i Absolute value of (f, τ) | y i Noise suppression signal y whose square of (f, τ) | min (F, τ) is calculated.
In addition, the internal noise removal apparatus 100 has an absolute value | y i Instead of (f, τ) |, P calculated from the moving average of power as shown in equation (8) i Noise suppression signal y that minimizes (f, τ) i (F, τ) is the noise suppression signal y min It may be calculated as (f, τ).
Here, β is a coefficient for calculating the moving average, and takes a value from 0 to 1.
FIG. 8 is a flowchart of processing of the power minimizing filtering 408 according to the first embodiment of this invention.
In initialization 801, the internal noise removal apparatus 100 sets various variables to initial values. Specifically, the internal noise removal apparatus 100 sets the index i of the noise suppression filter to “0”, and | y 0 The square of (f, τ) | min Set to P min Index i of the noise suppression filter that minimizes min Is set to “0”. The internal noise removal apparatus 100 proceeds to determination 805 after setting various variables to initial values.
In decision 805, the internal noise removal apparatus 100 determines that the noise suppression filter index i is the total noise suppression filter number i. max Determine if greater than. That is, it is determined whether or not the processing has been completed for all noise suppression filters.
The index i of the noise suppression filter is the total noise suppression filter number i max When it is determined that the following is true, the internal noise removal apparatus 100 proceeds to the noise suppression filtering 802.
In the noise suppression filtering 802, the internal noise removal apparatus 100 causes each noise suppression filter to act on the input signal x (f, τ), and the noise suppression signal y. i (F, τ) is calculated, and the process proceeds to decision 803.
In decision 803, the internal noise removal apparatus 100 determines that the noise suppression signal y i The square of the absolute value of (f, τ) is P min It is determined whether it is smaller. When i = 0, in the determination 803, the internal noise removal apparatus 100 determines that P min Without making the determination, the index i of the noise filter is updated to “1”, and then the process returns to the determination 805 to perform the same processing for the next noise suppression filter.
Noise suppression signal y with noise removed i The square of the absolute value of (f, τ) is P min If it is determined as above, the internal noise removal apparatus 100 updates i to i + 1, returns to determination 805, and performs the same processing for the next noise suppression filter.
Noise suppression signal y i If it is determined that the square of the absolute value of (f, τ) is smaller than Pmin, the internal noise removal apparatus 100 proceeds to the minimum value update 804.
In the minimum value update 804, the internal noise removal apparatus 100 performs P min And i min Is updated, i is updated to i + 1, and the process returns to decision 805 to execute processing for the next noise suppression filter.
In decision 805, the index i of the noise suppression filter is the total noise suppression filter number i. max When it is determined that the value is larger than the maximum value, the internal noise removal apparatus 100 determines that the processing has been completed for all the noise suppression filters, and P min The noise suppression filter index i and the noise suppression signal y i (F, τ) i min And noise suppression signal y min (F, τ) is output to the time domain transform 409 and the process is terminated.
Through the above-described processing, the internal noise removal apparatus 100 has a noise suppression filter that minimizes the volume after the noise suppression filter is applied to the signal input from the microphone array 101, and an output that minimizes the volume after noise suppression. A signal can be acquired.
In other words, in the present embodiment, a plurality of noise suppression filters are generated for each attribute such as the type of internal noise and the generation timing, and among the noise suppression filters, the noise suppression that minimizes the volume after the noise is suppressed. A filter can be selected. Therefore, noise can be accurately removed.
In the time domain transform 409, the internal noise removal apparatus 100 performs a noise suppression signal y calculated for each frequency. min By performing the inverse Fourier transform shown in Equation (9) on (f, τ), the time domain noise suppression signal y min (P) is calculated.
Where f max Is a frequency corresponding to 0.5 times the sampling rate.
In the time domain transform 409, the internal noise removal apparatus 100 performs the time domain noise suppression signal y. min A final signal obtained by adding a function obtained by applying a function corresponding to the inverse of the window function to (p) between the frames is output.
FIG. 9 is a timing chart illustrating an example of the target
As shown in FIG. 9, the target
When internal noise occurs, an internal noise generation signal is output from the
As the internal noise generation signal, a method using a drive signal transmitted to the
For example, when an internal noise of the type “A” is generated, the generated signal of the internal noise A is input to the noise
In the noise
In the noise suppression filter update 404, the internal noise removal apparatus 100 generates a noise suppression filter from the target sound covariance matrix and the noise covariance matrix corresponding to the internal noise A. The noise suppression filter is generated using, for example, Expression (6).
During the generation of the internal noise A, the internal noise removal apparatus 100 may execute the noise suppression filter update 404 every frame. During the generation of the internal noise A, the target
When the end signal of the internal noise A is input to the target
Details of the noise
FIG. 10 is a block diagram illustrating details of the noise
The noise
In the present embodiment, when the noise
In the
In the
In the
In the
FIG. 11 shows a vector V according to the first embodiment of the present invention. q, j It is explanatory drawing which shows the data structure of (z, (tau)).
As shown in FIG. q, j (Z, τ) is the feature value V for each frequency. q, j It is a vector having (f, τ) as elements.
In the
FIG. 22 is an explanatory diagram illustrating an example of the index Ind (j, τ) according to the first embodiment of this invention.
As a result of executing
In the example shown in FIG. 22, indexes Ind (j, τ) of A to C are given to the internal noise signal.
In the noise covariance update 1005, the internal noise removal apparatus 100 uses the expression (11) for each class c and calculates the frequency from the input data x (f, τ) used when calculating the feature quantity belonging to the cluster. Calculate the covariance matrix for each.
The number of clusters is the number of noise covariance matrices and noise suppression filters. Note that the number of clusters may be set in advance.
In the noise covariance update 1005, the internal noise removal apparatus 100 stores the noise covariance matrix calculated for each internal noise signal in the
FIG. 12 is a flowchart showing details of processing in the
Hereinafter, the index q indicating the type of internal noise and the index z of the subgroup are omitted. Also, τ is variable-transformed as τ = j * T + τ. Here, T is the number of frames of each internal noise signal.
In initialization 1201, the internal noise removal apparatus 100 randomly sets one of the feature values V (τ) to the centroid C (c) of each cluster. Here, random is a variable that randomly selects one of all internal noise signals and all frames. Further, the
In
When it is determined that the variable end is “TURE” indicating the end state, the internal noise removal device 100 ends the process.
If it is determined that the variable end is not “TURE” indicating the end state, the internal noise removal apparatus 100 proceeds to
In
In
Index τ is maximum T max If it is determined that the internal noise removal apparatus 100 is equal to or less than the internal noise removal apparatus 100, the process proceeds to initialization 1205.
In initialization 1205, the internal noise removal apparatus 100 initializes the variable Ind (τ) to “1”, the cluster index c to “1”, and the variable min to “−1”, and proceeds to
In
If it is determined that the cluster index c is greater than the cluster number C, the internal noise removal apparatus 100 updates τ to τ + 1 and returns to
When it is determined that the cluster index c is equal to or less than the number C of clusters, the internal noise removal device 100 proceeds to the distance calculation 1207.
In the distance calculation 1207, the internal noise removal apparatus 100 calculates the distance between the centroid C (c) and the feature value V (τ) of each cluster using the function D, and the process proceeds to
In
If it is determined that the variable dis is greater than or equal to the variable min, the internal noise removal device 100 updates the cluster index c to c + 1 and returns to
If it is determined that the variable dis is smaller than the variable min, the internal noise removal apparatus 100 proceeds to
In the
In
In update 1210, internal noise removal apparatus 100 updates centroid C (c) using (12). Specifically, the update of the centroid exceeding the centroid C (c) of each cluster is executed by calculating the average value of the feature value V (τ) in each cluster.
After the update, the internal noise removal device 100 proceeds to decision 1211.
In decision 1211, the internal noise removal apparatus 100 determines that the Ind for all indices τ. pre It is determined whether (τ) and Ind (τ) are equal.
When it is determined that the condition of the determination 1211 is not satisfied, the internal noise removal device 100 performs the Ind for all indexes τ. pre Substitute Ind (τ) for (τ), and return to
For all indices τ, Ind pre If it is determined that (τ) and Ind (τ) are equal, the internal noise removal device 100 sets the variable end to “TURE” and returns to
Second embodiment
Hereinafter, a second embodiment of the present invention will be described. The second embodiment of the present invention assumes an audio conference system. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
FIG. 13 is a block diagram of a hardware configuration of an internal noise removal device in the audio conference system according to the second embodiment of this invention.
In the second embodiment, an audio conference system including an internal noise removal device 1300, a microphone array 1301, a keyboard
The internal noise removal device 1300 includes an
The
The central processing unit 1303 executes various programs developed in the
In the second embodiment, the internal noise removal sound is a sound (keyboard removal sound) obtained by removing the sound generated when the user operates a key of the
The storage device 1306 stores a program for removing internal noise and data related to internal noise. The program stored in the storage device 1306 is the same as that in the first embodiment. The
The keyboard
The voice transmission device 1308 transmits the internal noise removal sound received from the central processing unit 1303 to the voice conference destination.
The
The
The speaker 1311 reproduces the analog audio signal transmitted from the
The internal noise removal apparatus 1300 may include at least one of a microphone array 1301, a keyboard
FIG. 14 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the
An internal noise signal is issued when each key of the
Specifically, the
FIG. 15 is a block diagram of processing executed by each device according to the second embodiment of this invention.
The sound collected by the microphone array 1301 is transmitted to the
Note that the digitized audio signal includes the sound (acoustic echo) collected by the microphone array 1301 and the noise generated when the
The central processing unit 1303 executes an
The echo canceller 1505 removes the acoustic echo component using a general algorithm such as NLMS using the audio signal output from the speaker 1311 as a reference signal.
The sound signal from which the acoustic echo component has been removed is output to the internal noise removal processing 1503. The central processing unit 1303 performs internal noise removal processing 1503 on the audio signal from which the acoustic echo component has been removed, and removes the operation sound of the keyboard. Note that the internal noise removal processing 1503 has the same configuration as the internal noise removal processing 303 of the first embodiment.
The voice signal from which the internal noise has been removed is transmitted to the conference partner via the network by
The voice of the conference partner is received by
The
The speaker 1311 reproduces the received analog audio signal.
FIG. 16 is an explanatory diagram illustrating an example of a user use scene in the audio conference system according to the second embodiment of this invention.
When the user operates a button arranged on the
Third embodiment
Hereinafter, a third embodiment of the present invention will be described. The third embodiment of the present invention assumes an audio conference system including a touch panel. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
FIG. 17 is a block diagram of a hardware configuration of an internal noise removing device in an audio conference system including a touch panel according to the third embodiment of the present invention.
In the third embodiment, an audio conference system including an internal noise removal device 1700, a microphone array 1701, a touch position recognition device 1704, a
The internal noise removal device 1700 includes an
The
The central processing unit 1703 executes various programs developed in the
In the third embodiment, the internal noise removal sound is a sound (touch panel removal sound) obtained by removing the sound generated when the user operates the
The storage device 1706 stores a program for removing internal noise and data related to internal noise. The program stored in the storage device 1706 is the same as that in the first embodiment. The
The touch position recognition device 1704 detects information about which position on the
The voice transmission device 1708 transmits the internal noise-removed sound received from the central processing unit 1703 to the voice conference call destination.
The
The
The speaker 1711 reproduces the analog audio signal transmitted from the
The internal noise removal apparatus 1700 may include at least one of a microphone array 1701, a touch position recognition apparatus 1704, a
FIG. 18 is an explanatory diagram illustrating an example of an internal noise signal corresponding to the operation sound of the
An internal noise signal is issued when each touch position on the
Specifically, a
FIG. 19 is an explanatory diagram illustrating an example of a user use scene in the audio conference system including the
The sound of operating the
Fourth embodiment
The fourth embodiment of the present invention will be described below. The fourth embodiment of the present invention assumes a robot (see FIG. 23) having a voice recognition function. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
Note that the robot 2201 of the fourth embodiment includes the internal noise removal device 100. Since the hardware configuration and processing configuration of the internal noise removal apparatus 100 are the same as those in the first embodiment, the description thereof is omitted.
FIG. 20 is a block diagram of a configuration of speech recognition processing including internal noise removal processing according to the fourth embodiment of this invention.
The internal noise removal apparatus 100 performs
The internal noise removal apparatus 100 executes an internal noise removal process 303, removes internal noise contained in the digital voice signal, and extracts only the voice of a person who is the target of voice recognition. The extracted voice is output to the
In the
Fifth embodiment
The fifth embodiment of the present invention will be described below. The fifth embodiment of the present invention shows a modification of the noise covariance matrix and target sound covariance matrix estimation method and the noise suppression filter adaptation method. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.
In the fifth embodiment, the apparatus configuration is the same as the hardware configuration and processing configuration of the first embodiment, and a description thereof will be omitted.
FIG. 21 is a block diagram showing details of the internal noise removal processing 303 according to the fifth embodiment of this invention.
The internal noise removal apparatus 100 performs
The internal noise removal apparatus 100 performs sound
In the sound
When it is determined that the sound source direction matches the target sound direction, the internal noise removal apparatus 100 performs target sound adaptation 2103 on the sound with the sound of components (frame and frequency) satisfying the condition as the target sound. Specifically, the internal noise removal apparatus 100 uses the equation (5) to calculate the target sound covariance matrix R. s (F) is updated.
When the sound source direction does not coincide with the target sound direction, the internal noise removal apparatus 100 performs noise adaptation 2104 using the sound of components (frame and frequency) that do not satisfy the conditions as noise. Specifically, the internal noise removal apparatus 100 uses the noise covariance matrix R using Equation (13). b (F) is updated.
In the
In the
According to an embodiment of the present invention, the internal noise removal apparatus 100 generates a plurality of noise covariance matrices according to the internal noise attributes such as the type of internal noise and the generation timing, and corresponds to the generated internal noise. A plurality of noise covariance matrices are selected, a plurality of noise suppression filters are generated from each noise covariance matrix, and an appropriate noise filter can be selected from the plurality of noise suppression filters. As a result, it is possible to appropriately remove noise even for non-stationary noise whose sound quality changes depending on the operating state of the actuator.
Further, noise can be accurately removed from operation sounds of the
Claims (14)
前記マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、
前記雑音除去装置は、マイクロプロセッサと、前記マイクロプロセッサに接続される記憶装置と、前記マイクロプロセッサに接続されるメモリと、前記マイクロプロセッサに接続され、前記アナログ信号をデジタル信号に変換するAD変換装置と、を備え、
前記記憶装置は、前記マイクアレイによって収集された音に含まれる雑音を除去するための雑音抑圧フィルタを生成する雑音抑圧フィルタ生成プログラムと、前記雑音抑圧フィルタを用いて、前記マイクアレイによって収集された音に含まれる雑音を除去する雑音除去プログラムとを格納し、
前記雑音除去装置は、
前記マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成し、
前記AD変換装置によって変換されたデジタル信号に前記各々の雑音抑圧フィルタを作用させ、雑音が除去されたデジタル信号の音量が最も小さくなる前記雑音抑圧フィルタを選択し、
前記選択された雑音抑圧フィルタを用いて、前記AD変換装置から入力されたデジタル信号から雑音を除去することを特徴とする雑音除去装置。A noise removal device that removes noise from sound collected by a microphone array composed of a plurality of microphones,
The sound collected by the microphone array is input to the noise removing device as an analog signal,
The noise removing device includes a microprocessor, a storage device connected to the microprocessor, a memory connected to the microprocessor, and an AD conversion device connected to the microprocessor and converting the analog signal into a digital signal. And comprising
The storage device uses a noise suppression filter generation program for generating a noise suppression filter for removing noise included in the sound collected by the microphone array, and the noise suppression filter. Stores a noise removal program that removes noise contained in the sound,
The noise removing device includes:
Based on the noise included in the sound collected by the microphone array, a plurality of the noise suppression filters are generated,
Each noise suppression filter is allowed to act on the digital signal converted by the AD converter, and the noise suppression filter that minimizes the volume of the digital signal from which noise has been removed is selected.
A noise removing device that removes noise from a digital signal input from the AD converter using the selected noise suppression filter.
前記AD変換装置から入力されたデジタル信号から除去される雑音は、前記マイクアレイによって収集された音に含まれる、所定の動作を実行する機器の動作音であること特徴とする雑音除去装置。The noise removal device according to claim 1,
The noise removing apparatus, wherein the noise removed from the digital signal input from the AD conversion apparatus is an operation sound of a device that performs a predetermined operation included in the sound collected by the microphone array.
前記雑音は、複数の属性を備え、
前記雑音除去装置は、
前記機器から発生する雑音の各属性に対応するデジタル信号に基づいて、クラスタリング処理を実行して前記機器から発生する雑音の属性毎に複数の第1の雑音共分散行列を生成し、
前記各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。The noise removal device according to claim 2,
The noise has a plurality of attributes,
The noise removing device includes:
Based on a digital signal corresponding to each attribute of noise generated from the device, a clustering process is performed to generate a plurality of first noise covariance matrices for each noise attribute generated from the device,
A noise removing apparatus that generates the plurality of noise suppression filters using each of the first noise covariance matrices.
前記雑音除去装置は、前記機器を制御する制御部を介して前記機器と接続され、
前記機器から発生する雑音の属性を示す情報が、前記制御部から前記雑音除去装置に入力され、
前記雑音除去装置は、
前記入力された雑音の属性に基づいて、前記雑音の属性に対応する前記複数の第1の雑音共分散行列を選択し、
前記選択された各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。The noise removal device according to claim 3,
The noise removing device is connected to the device via a control unit that controls the device,
Information indicating the attribute of noise generated from the device is input from the control unit to the noise removal device,
The noise removing device includes:
Selecting the plurality of first noise covariance matrices corresponding to the noise attribute based on the input noise attribute;
A noise removal apparatus that generates the plurality of noise suppression filters using each of the selected first noise covariance matrices.
前記AD変換装置から入力されたデジタル信号から目的共分散行列を生成し、
前記生成された目的共分散行列と前記選択された各々の第1の雑音共分散行列とを用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。The noise removal device according to claim 4,
Generating a target covariance matrix from the digital signal input from the AD converter;
A noise removal apparatus that generates the plurality of noise suppression filters using the generated target covariance matrix and each of the selected first noise covariance matrices.
前記機器から発生する雑音の属性は、前記雑音の発生源を特定する情報、雑音が発生している場合における前記雑音の発生源の状態、又は、前記雑音が発生したタイミングの少なくとも一つを含むことを特徴とする雑音除去装置。The noise removal device according to claim 3,
The attribute of the noise generated from the device includes at least one of information for identifying the source of the noise, a state of the noise source when the noise is generated, or a timing at which the noise is generated. The noise removal apparatus characterized by the above-mentioned.
前記マイクアレイによって収集された音の音源方向を推定し、
目的の音源方向以外から到来する音を雑音として前記目的の音源方向から到来した音から除去するための第2の雑音共分散行列を生成し、
前記第2の雑音共分散行列と前記各々の第1の雑音共分散行列とを足し合わせることによって、複数の第3の雑音共分散行列を生成し、
前記各々の第3の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成することを特徴とする雑音除去装置。The noise removal device according to claim 3,
Estimating the sound source direction of the sound collected by the microphone array;
Generating a second noise covariance matrix for removing sound arriving from other than the target sound source direction as noise from the sound arriving from the target sound source direction;
Generating a plurality of third noise covariance matrices by adding the second noise covariance matrix and each of the first noise covariance matrices;
A noise removal apparatus that generates the plurality of noise suppression filters using each of the third noise covariance matrices.
前記マイクアレイによって収集された音は、アナログ信号として前記雑音除去装置に入力され、
前記雑音除去装置は、マイクロプロセッサと、前記マイクロプロセッサに接続される記憶装置と、前記マイクロプロセッサに接続されるメモリと、前記マイクロプロセッサに接続され、前記アナログ信号をデジタル信号に変換するAD変換装置と、を備え、
前記記憶装置は、前記マイクアレイによって収集された音から雑音を除去するための雑音抑圧フィルタを生成する雑音抑圧フィルタ生成プログラムと、前記雑音抑圧フィルタを用いて、前記マイクアレイによって集音された音から雑音を除去する雑音除去プログラムとを格納し、
前記方法は、
前記雑音除去装置が、前記マイクアレイによって収集された音に含まれる雑音に基づいて、複数の前記雑音抑圧フィルタを生成する第1のステップと、
前記雑音除去装置が、前記各々の雑音抑圧フィルタを前記デジタル信号に作用させて、雑音が除去されたデジタル信号の音量が最も小さくなる前記雑音抑圧フィルタを選択する第2のステップと、
前記雑音除去装置が、前記選択された雑音抑圧フィルタを用いて、前記AD変換装置から入力されたデジタル信号から雑音を除去する第3のステップと、を含むことを特徴とする雑音除去方法。A noise removal method in a noise removal apparatus for removing noise from sound collected by a microphone array composed of a plurality of microphones,
The sound collected by the microphone array is input to the noise removing device as an analog signal,
The noise removing device includes a microprocessor, a storage device connected to the microprocessor, a memory connected to the microprocessor, and an AD conversion device connected to the microprocessor and converting the analog signal into a digital signal. And comprising
The storage device uses a noise suppression filter generation program for generating a noise suppression filter for removing noise from the sound collected by the microphone array, and a sound collected by the microphone array using the noise suppression filter. A noise removal program that removes noise from
The method
A first step of generating a plurality of the noise suppression filters based on noise included in the sound collected by the microphone array;
A second step in which the noise removing device operates the respective noise suppression filters on the digital signal to select the noise suppression filter with the smallest volume of the digital signal from which noise has been removed;
The noise removal method includes: a third step of removing noise from the digital signal input from the AD converter using the selected noise suppression filter.
前記AD変換装置から入力されたデジタル信号から除去される雑音は、前記マイクアレイによって集音された音に含まれる、所定の動作を実行する機器の動作音であることを特徴とする雑音除去方法。The noise removal method according to claim 8, comprising:
The noise removed from the digital signal input from the AD converter is an operation sound of a device that performs a predetermined operation included in the sound collected by the microphone array. .
前記雑音は、複数の属性を備え、
前記第1のステップは、
前記雑音除去装置が、前記機器から発生する雑音の各属性に対応するデジタル信号に基づいて、クラスタリング処理を実行して前記機器から発生する雑音の属性毎に複数の第1の雑音共分散行列を生成する第4のステップと、
前記雑音除去装置が、前記各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成する第5のステップと、を含むことを特徴とする雑音除去方法。The noise removal method according to claim 9, comprising:
The noise has a plurality of attributes,
The first step includes
The noise removal apparatus performs a clustering process based on a digital signal corresponding to each attribute of noise generated from the device, and generates a plurality of first noise covariance matrices for each attribute of noise generated from the device. A fourth step of generating;
And a fifth step of generating the plurality of noise suppression filters using each of the first noise covariance matrices.
前記雑音除去装置は、前記機器を制御する制御部を介して前記機器と接続され、
前記機器から発生する雑音の属性を示す情報が、前記制御部から前記雑音除去装置に入力され、
前記第4のステップは、
前記雑音除去装置が、前記入力された機器から発生する雑音の属性に基づいて、前記機器から発生する雑音の属性に対応する前記複数の第1の雑音共分散行列を選択する第6のステップと、
前記雑音除去装置が、前記選択された各々の第1の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成する第7のステップと、を含むことを特徴とする雑音除去方法。The noise removal method according to claim 10, comprising:
The noise removing device is connected to the device via a control unit that controls the device,
Information indicating the attribute of noise generated from the device is input from the control unit to the noise removal device,
The fourth step includes
A sixth step in which the noise removing device selects the plurality of first noise covariance matrices corresponding to the attribute of the noise generated from the device based on the attribute of the noise generated from the input device; ,
And a seventh step of generating the plurality of noise suppression filters using each of the selected first noise covariance matrices. 7. A noise removal method, comprising:
前記第5のステップは、
前記雑音除去装置が、前記AD変換装置から入力されたデジタル信号から目的共分散行列を生成する第8のステップと、
前記雑音除去装置が、前記生成された目的共分散行列と、前記第6のステップにおいて選択された各々の第1の雑音共分散行列とを用いて、前記複数の雑音抑圧フィルタを生成する第9のステップと、を含むことを特徴とする雑音除去方法。The noise removal method according to claim 11, comprising:
The fifth step includes
An eighth step in which the noise removing device generates a target covariance matrix from the digital signal input from the AD converter;
The noise removal apparatus generates a plurality of noise suppression filters using the generated target covariance matrix and each first noise covariance matrix selected in the sixth step. And a noise removal method comprising the steps of:
前記機器から発生する雑音の属性は、前記雑音の発生源を特定する情報、雑音が発生している場合における前記雑音の発生源の状態、又は、前記雑音が発生したタイミングの少なくとも一つを含むことを特徴とする雑音除去方法。The noise removal method according to claim 10, comprising:
The attribute of the noise generated from the device includes at least one of information for identifying the source of the noise, a state of the noise source when the noise is generated, or a timing at which the noise is generated. A noise removal method characterized by the above.
さらに、前記雑音除去装置が、前記マイクアレイによって収集された音の音源方向を推定する第10のステップと、
前記雑音除去装置が、目的の音源方向以外から到来する音を雑音として前記目的の音源方向から到来した音から除去するための第2の雑音共分散行列を生成する第11のステップと、
前記雑音除去装置が、前記第2の雑音共分散行列と前記各々の第1の雑音共分散行列とを足し合わせて、複数の第3の雑音共分散行列を生成する第12のステップと、
前記雑音除去装置が、前記各々の第3の雑音共分散行列を用いて、前記複数の雑音抑圧フィルタを生成する第13のステップと、を含むことを特徴とする雑音除去方法。The noise removal method according to claim 10, comprising:
Further, a tenth step in which the noise removing device estimates a sound source direction of sound collected by the microphone array;
An eleventh step in which the noise removing device generates a second noise covariance matrix for removing, as noise, sound arriving from a direction other than the target sound source direction from sound arriving from the target sound source direction;
A twelfth step in which the noise removing device generates a plurality of third noise covariance matrices by adding the second noise covariance matrix and the first noise covariance matrix;
And a thirteenth step of generating the plurality of noise suppression filters using each of the third noise covariance matrices. 13. A noise removal method, comprising:
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/062772 WO2011004503A1 (en) | 2009-07-08 | 2009-07-08 | Noise removal device and noise removal method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011004503A1 true JPWO2011004503A1 (en) | 2012-12-13 |
JP5382745B2 JP5382745B2 (en) | 2014-01-08 |
Family
ID=43428940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011521766A Expired - Fee Related JP5382745B2 (en) | 2009-07-08 | 2009-07-08 | Noise removing apparatus and noise removing method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5382745B2 (en) |
WO (1) | WO2011004503A1 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5017441B2 (en) * | 2010-10-28 | 2012-09-05 | 株式会社東芝 | Portable electronic devices |
WO2013007070A1 (en) | 2011-07-08 | 2013-01-17 | 歌尔声学股份有限公司 | Method and device for suppressing residual echo |
JP5731929B2 (en) * | 2011-08-08 | 2015-06-10 | 日本電信電話株式会社 | Speech enhancement device, method and program thereof |
JP6586907B2 (en) * | 2016-03-07 | 2019-10-09 | 株式会社リコー | Information processing apparatus, conference system, and control method for information processing apparatus |
JP6733450B2 (en) * | 2016-09-15 | 2020-07-29 | 株式会社リコー | Video conferencing device, information processing method and program |
CN109427328B (en) * | 2017-08-28 | 2023-04-28 | 中国科学院声学研究所 | Multichannel voice recognition method based on filter network acoustic model |
CN112889110A (en) * | 2018-10-15 | 2021-06-01 | 索尼公司 | Audio signal processing apparatus and noise suppression method |
CN109757359B (en) * | 2019-03-20 | 2022-07-19 | 湖北中香农业科技股份有限公司 | Method for cultivating high-quality fragrant long-grain japonica rice |
CN114464203B (en) * | 2022-01-18 | 2022-10-25 | 小米汽车科技有限公司 | Noise filtering method, device, system, vehicle and storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972295A (en) * | 1982-10-18 | 1984-04-24 | Nippon Telegr & Teleph Corp <Ntt> | Multipoint sound receiving device |
JP3878892B2 (en) * | 2002-08-21 | 2007-02-07 | 日本電信電話株式会社 | Sound collection method, sound collection device, and sound collection program |
US7716044B2 (en) * | 2003-02-07 | 2010-05-11 | Nippon Telegraph And Telephone Corporation | Sound collecting method and sound collecting device |
JP4561222B2 (en) * | 2004-07-30 | 2010-10-13 | 日産自動車株式会社 | Voice input device |
JP4568193B2 (en) * | 2005-08-29 | 2010-10-27 | 日本電信電話株式会社 | Sound collecting apparatus and method, program and recording medium |
JP2007295085A (en) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | Sound source separation apparatus, and sound source separation method |
JP4910568B2 (en) * | 2006-08-25 | 2012-04-04 | 株式会社日立製作所 | Paper rubbing sound removal device |
-
2009
- 2009-07-08 JP JP2011521766A patent/JP5382745B2/en not_active Expired - Fee Related
- 2009-07-08 WO PCT/JP2009/062772 patent/WO2011004503A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP5382745B2 (en) | 2014-01-08 |
WO2011004503A1 (en) | 2011-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5382745B2 (en) | Noise removing apparatus and noise removing method | |
JP5897343B2 (en) | Reverberation parameter estimation apparatus and method, dereverberation / echo cancellation parameter estimation apparatus, dereverberation apparatus, dereverberation / echo cancellation apparatus, and dereverberation apparatus online conference system | |
CN112447191B (en) | Signal processing device and signal processing method | |
CN107393550B (en) | Voice processing method and device | |
US7065487B2 (en) | Speech recognition method, program and apparatus using multiple acoustic models | |
JP5550456B2 (en) | Reverberation suppression apparatus and reverberation suppression method | |
JP5000647B2 (en) | Multi-sensor voice quality improvement using voice state model | |
JP5231139B2 (en) | Sound source extraction device | |
WO2021022094A1 (en) | Per-epoch data augmentation for training acoustic models | |
JPH1115491A (en) | Environmentally compensated method of processing speech | |
JP2005084253A (en) | Sound processing apparatus, method, program and storage medium | |
JP5027127B2 (en) | Improvement of speech intelligibility of mobile communication devices by controlling the operation of vibrator according to background noise | |
JP3434215B2 (en) | Sound pickup device, speech recognition device, these methods, and program recording medium | |
JP2013012841A (en) | Echo canceller, and method and program therefor | |
JP4891805B2 (en) | Reverberation removal apparatus, dereverberation method, dereverberation program, recording medium | |
JP4505597B2 (en) | Noise removal device | |
JP6439174B2 (en) | Speech enhancement device and speech enhancement method | |
JP4729534B2 (en) | Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
WO2021070278A1 (en) | Noise suppressing device, noise suppressing method, and noise suppressing program | |
JP2012168345A (en) | Mechanical sound removal device, mechanical sound detection device, and video imaging apparatus | |
JP4242320B2 (en) | Voice recognition method, apparatus and program thereof, and recording medium thereof | |
JP5172797B2 (en) | Reverberation suppression apparatus and method, program, and recording medium | |
JP5885686B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, and program | |
CN117292691A (en) | Audio energy analysis method and related device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5382745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |