WO2005112007A1

WO2005112007A1 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Info

Publication number: WO2005112007A1
Application number: PCT/JP2004/013168
Authority: WO
Inventors: Yasumasa Nakata; Tomoyuki Okamura; Hironobu Takahashi
Original assignee: Fuji Television Network, Inc.
Priority date: 2004-05-13
Filing date: 2004-09-09
Publication date: 2005-11-24
Also published as: JP4272107B2; JP2005326587A

Abstract

　除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、混合音響信号から混合音響振幅スペクトルを抽出する音響振幅抽出部と、混合音響信号と既知音響信号との位相のずれが、０から３６０度の範囲で一様な確率で分布しているとして、既知信号の除去強度を設定する除去強度設定部と、除去強度設定部における設定に基づいて、該既知音響振幅スペクトルを変換し、混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部とを備える。この音響信号除去装置によると、混合音響中から既知の音響を除去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するのを回避し、除去しようとする音響の変化を自動的且つ高精度に予測し、適正に除去することができる。

Description

明細書

音響信号除去装置、音響信号除去方法及び音響信号除去プログラム技術分野

[0001] 本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、コンテンツ中に混合された BGMや音声等の音響を除去する音響信号除去装置、音響信号除去方法及び音響信号除去プログラムに関する。

背景技術

[0002] 近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が混合している映像素材から、使用されている音楽だけを除去することで、新たな素材として活用することができる。このように、既存の混合音響から特定の音声を減算する技術としては、例えば、特開 2000-312395号公報に開示された技術がある。

[0003] し力しながら、放送番組の音声作成時には、製作意図に合わせて周波数特性や音量を調整する場合が多いため、音の位相が予測不能な変化をしている。このため、単に電子的な減算処理を行ったのみでは、適切に除去することはできない。

[0004] 詳述すると、除去しょうとする音響が、例えば番組の BGMのような既知の音楽であつても、番組作成時に、番組効果のために BGMの低音や高音の強調や減衰を行つたり、録音'再生を繰り返したりする過程で、 BGMの周波数特性が変化している場合もあり、単純に減算処理をすることはできない。

[0005] 本発明は、上記問題を解決すべくなされたものであり、混合音響中から既知の音響を除去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するのを回避し、除去しょうとする音響の変化を自動的且つ高精度に予測し、適正に除去することのできる音響信号除去装置、音響信号除去方法及び音響信号除去プロダラムを提供することを目的とする。

発明の開示

[0006] 上記課題を解決するために、本発明は、除去しょうとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合されてヽる混合音響信号カゝら混合音響振幅スペクトルを抽出し、既知音響振幅スぺ外ルと混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、混合音響振幅スペクトルに対する既知音響振幅スペクトルの時間的位置を変位させ、既知音響振幅スペクトルと、混合音響振幅スペクトル内に混合された既知音響振幅スぺクトルとの時間位置を合致させ、時間位置が変位された既知音響振幅スペクトルを、混合音響振幅スペクトル力除去する。

[0007] 特に、上記一致度の算定にお!、ては、既知音響振幅スペクトルと混合音響振幅スベクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間におヽて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全てのスぺタトル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。

[0008] このような本発明によれば、既知音響が含まれて、る混合音響から、既知音響を除去する際に行っていた、混合音響と既知音響の開始時刻を一致させる処理を、自動で且つ精度良く行うことができる。

[0009] この結果、従来より行っていた、正確に時刻を一致させるための、既知音響だけの区間を指定するオペレータによる手動の作業を省略することができる。また、混合音響中に既知音響だけの区間がな!ヽ場合や発見できな!、場合であっても、既知音の除去処理を実行することが可能となる。

[0010] また、他の発明は、除去しょうとする既知音響信号力も既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合されている混合音響信号カゝら混合音響振幅スぺ外ルを抽出し、既知音響振幅スペクトルと混合音響振幅スぺタトルとの一致度を算定し、算定された一致度に応じて、既知音響振幅スペクトルの周波数特性を補正し、周波数特性が補正された既知音響振幅スペクトルを、混合音響振幅スペクトルから除去する。

[0011] 本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全てのスベクトル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。

[0012] このような本発明によれば、既知音響が含まれて、る混合音響から、既知音響を除去する際に行って、た、既知音響振幅スペクトルの周波数特性を補正する処理を、自動で且つ精度良く行うことができる。

[0013] 特に、本発明によれば、所定幅の周波数帯域と時間幅とにより画定される定常プロックを設定し、全ての定常ブロックについて、スペクトル強度点の乖離度から、混合音響と既知音響との一致度を推定するため、混合音響中に既知音響以外の大きな音が含まれている場合であっても、強度推定を実際よりも大きく推定する等の誤処理が低減され、既知音響を実際の音量 (強度や振幅スペクトル)より大きいとして、過剰に音響信号を除去することがなぐ処理後の音声が劣化するのを回避することができる

[0014] この結果、混合音響中に含まれる既知音響が、既知音響として与えた音楽 CD等の音を、制作意図に合わせて周波数特性や音量を調整して、他の音と混合して制作されている場合であっても、混合音の各時刻に含まれる既知音響の、強度とその周波数特性を正確に推定することかできる。

[0015] これにより、従来行っていた、既知音響を調整した周波数特性を推定するための、混合音響の中における既知音響のみが含まれて、る時間区間を、オペレータが聴ヽて選択する作業などを省略することができ、また、混合音響中で音楽だけの区間がない場合であっても、既知音響の除去を確実に行うことができる。

[0016] さらに、本発明では、推定のためにサンプルを取得する区間の指定を行わず、混合音響全域について一致度を算定することから、サンプル区間のみで周波数特性を推定することによる、その区間の既知音響に含まれない周波数についての特性が予測できな、と、う問題を解決することができ、この問題を回避するために従来行ってヽた、周波数ごとに飛び飛びにしか得られない特性を、補完したり、なめらかにしたりといった処理を不要とすることができるとともに、これら従来の処理に付随していた、周波数補正グラフを表示し、オペレータが手動で修正するという作業等を省略することができる。この結果、既知音響除去作業の効率化、高精度化を図ることができる。

[0017] 本発明は、除去しょうとする既知音響信号力も既知音響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出し、既知音響振幅スぺ外ルと混合音響振幅スぺ外ルとの一致度を算定し、算定された一致度に応じて、混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去する。

[0018] 本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全てのスベクトル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定する。

[0019] このような本発明によれば、既知音響のみの範囲を混合音響ごと除去するため、混合音響中における既知音響のみの時間区間において、既知音響の推定誤差等により除去されない音が残ってしまうという問題を解消することができる。

図面の簡単な説明

[0020] [図 1]図 1は、実施形態に係る音響信号除去システムの構成を示すブロック図である。

[図 2]図 2は、実施形態に係る音響信号除去システムの動作を示すフロー図である。

[図 3]図 3は、実施形態に係る除去エンジンの機能ブロック図である。

[図 4]図 4は、実施形態に係る除去エンジンの動作を示すフロー図である。

[図 5]図 5は、実施形態に係る既知音響方法において定常ブロックの設定を示す説明図である。

[図 6]図 6は、実施形態に係る既知音響方法において定常ブロック設定の変更例を示す説明図である。

[図 7]図 7は、実施形態に係る既知音響方法においてスペクトル強度点をプロットした状態を示す説明図である。

[図 8]図 8は、実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。

[図 9]図 9は、実施形態に係る音響信号除去方法による効果を示す説明図である。発明を実施するための最良の形態

[0021] [音響信号除去システムの構成]

本発明の実施形態について図面を参照しながら説明する。図 1は、本実施形態に係る音響信号除去システムの全体構成を示すブロック図である。

[0022] 図 1に示すように、本実施形態に係る音響信号除去システムは、混合音響や既知音響を入力する入力 I/F1及び DVキヤプチヤー 2を備えて、る。これら入力 I/F1及び DVキヤプチヤー 2から入力されたファイル（例えば、 AVIファイルや WAVファイル）は、記憶装置 5に蓄積される。入力 I/F1は、 CDプレーヤーや MDプレーヤ一等の再生装置力も音響信号を取り込むインターフェースである。また、 DVキヤプチヤー 2は、映像や音声が混合した混合音響信号である除去対象用の MIX音声を取り出すィンターフェースである。

[0023] また、音響信号除去システムは、記憶装置 5に蓄積された各種データに対して音声データ抽出処理や音声変換処理を行う音声変換部 (PreWav/PostWav) 4及び音声データ抽出部（DVReMix) 3とを備えている。これら音声変換部 4及び音声データ抽出部 3は、指定されたファイル (AVIファイルや WAVファイル）を記憶装置 5から読み出し、所定の処理を施した後、処理後のファイル (WAVファイル)を記憶装置 5に蓄積する。

[0024] 音声変換部 4は、周波数変換、及びステレオ力もモノラルの分離を行う（S 103)。すなわち、除去エンジン 100のフォーマットに合うように、 WAVファイルを左右 2チャンネルに分離するとともに、サンプリングレートを 48kHzに変換し、 2つの WAVファイル（出力ファイル名：左チャンネルが MIX-L.WAV、右チャンネルが MIX-R.WAV)として生成し、記憶装置 5に蓄積する。

[0025] 音声データ抽出部 3は、映像データ及び音声データ力構成されるコンテンツから音声データのみを抽出するモジュールであり、本実施形態では、 AVIファイル力音声データを WAV形式で抽出する。ここでの WAVファイルは、ステレオ形式であり、そのサンプリングレートは DVの音声と同じ 32kHz又は 48kHzである。この抽出された WAVファイルは、記憶装置 5に蓄積される。

[0026] そして、音響信号除去システムは、混合音響信号から既知音響信号を除去する除去エンジン 100を備えている。この除去エンジン 100は、記憶装置 5に蓄積された各音声ファイル (WAVファイル)を読み出し、除去したデータや除去処理に係る各種データを、一時メモリ 7を介して、記憶装置 5に蓄積したり、出力 I/F8を通じて、モニタ 1 0やスピーカー 11から出力する。モニタ 10は、ユーザーインターフェース 6による操作や処理結果を表示する GUIを表示し、スピーカー 11は、ユーザーインターフエ一ス 6によるユーザー操作に基づいて、混合音響や既知音響、除去後音響を出力する

[0027] また、除去エンジン 100は、キーボード 6aやマウス 6b等の入力デバイスによるユーザ一操作に基づく操作信号を、ユーザーインターフェース 6を通じて取得し、この操作信号に基づいて、各種処理を行う。この除去エンジン 100による音響信号除去処理については、後述する。

[0028] また、音響信号除去システムは、同期制御部 9を備えており、これにより記憶装置 5 からのデータの読み出し、除去エンジン 100による除去処理、メモリ 7や出力 I/F8によるデータの入出力を同期させる。これにより、モニタに表示される映像と、スピーカ一 11から出力される音声を、除去エンジン 100による処理やユーザーインターフエ一ス 6におけるユーザー操作に同期させることができる。

[0029] さらに、音響信号除去システムは、パラメータの設定に際し、そのデフォルト値をシミユレーシヨンにより設定し、ユーザーの作業を支援するシミュレーション部 14を備えている。

[0030] 具体的に、シミュレーション部 14は、一定振幅の単音 (480Hz)を混合音として入力し、既知音響をゼロとして除去処理を行い、出力される音量と、処理前の混合音とを比較して差分量を計測し、その差分量が 0となるように、ユーザーインターフェース 6 における除去強度のデフォルト値を設定する。

[0031] [音響信号除去システムの動作] 以上説明した構成を備える音響信号除去システムは、以下のように動作する。図 2 は、音響信号除去システムの動作を示すフロー図である。なお、本実施形態では、映像と音声力ステレオで記録された映像ファイル (DV)を混合音響 (MIX音声）とし、オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中に BGMとして包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態おける処理は、（1)前処理、（2)音楽除去処理、（3)後処理に大別される。以下、各処理について詳述する。

[0032] (1)前処理

前処理では、 DVから除去対象用の MIX音声を取り出すとともに、 BGM用音声 (ォリジナル曲）を用意する。具体的には、 DVキヤプチヤー 2から DV用のビデオ編集ソフトを使用して動画をキヤプチヤーし（S101)、このキヤプチヤーしたファイルを、タイプ 1の AVIファイル（出力ファイル名： MIX.AVI)として、記憶装置 5に蓄積する。

[0033] 次いで、音声データ抽出部（DVReMix) 3により、 AVIファイルから音声データを W AV形式（出力ファイル名： MIX.WAV)で抽出する（S102)。ここでの WAVファイルは、ステレオ形式であり、そのサンプリングレートは DVの音声と同じ 32kHz又は 48kHz である。この抽出された WAVファイルは、記憶装置 5に蓄積される。

[0034] その後、音声変換部（PreWav) 4により、周波数変換及び、ステレオ力もモノラルの分離を行う（S103)。すなわち、除去エンジン 100のフォーマットに合うように、 WAV フアイルを左右 2チャンネルに分離するとともに、サンプリングレートを 48kHzに変換し、 2つの WAVファイル（出力ファイル名：左チャンネルが MIX-L.WAV、右チャンネルが MIX-R.WAV)として生成し、記憶装置 5に蓄積する。また、このステップ S103 では、音声変換と同時にビデオの開始時間のオフセットを、設定ファイル (ファイル名： MIX.time)に出力し、記憶装置 5に蓄積する。

[0035] これらステップ S101— S103と並行して、オリジナル曲の取り込みを行う（S104)。

具体的には、オリジナル曲（BGM曲）を CDなどから取り込み、 44.1kHzステレオの W AVファイル（出力ファイル名： BGM.WAV)として、記憶装置 5に蓄積する。次いで、音声変換部 (PreWav) 3により、周波数変換、ステレオカゝらモノラルの分離を行う（S1 05)。すなわち、除去エンジン 100のフォーマットに合うように、ステップ S104で取り込んだ WAVファイルを、左右 2チャンネルに分離し、サンプリングレートを 48kHzに変換し 2つの WAVファイル（出力ファイル名：左チャンネルが BGM-L.WAV、右チャンネルが BGM- R.WAV)として、記憶装置 5に蓄積する。

[0036] (2)音楽除去処理

音楽除去処理では、除去エンジン（GEQ) 100により、 MIX音声から BGM音声を除去する（S106)。この除去後出力される音声ファイルは、左右チャンネルともにモノラル 48kHzの WAVファイル（出力ファイル名：左チャンネル力 ¾RASE- L.WAV、右チヤンネルが ERASE-R.WAV)として、メモリ 7又は記憶装置 5に蓄積される。

[0037] (3)後処理

後処理では、除去エンジンで除去された音声力 DV用の音声に変換され、 DV(A VIファイル）に復元される。先ず、音声変換部（PostWav) 4が、周波数変換、及びモノラルからステレオへの変換を行う（S 107)。すなわち、音声変換部 4は、除去エンジン 100から出力された左右 2チャンネルの WAVファイルをステレオに合成し、必要ならば元の DVの音声と同じサンプリングレートに変換し、 WAVファイル（ファイル名： ERASE.WAV)として、記憶装置 5に蓄積する。次いで、音声データ抽出部（ DVReMix) 3が、キヤプチヤーした AVIファイル（BGM.AVI)の音声を、除去後の音声 (ERASE.WAV)と入れ替え（S 108)、除去後音響ファイル（ファイル名： ERASE. AV I)として、記憶装置 5に蓄積する。

[0038] なお、例えば、 1回目の作業で、ステレオ放送の左音声 (L)について作業した場合などには、この左音声に対する各種パラメータ設定データを記憶しておき、これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース 6におけるデフォルト値として設定する。

[0039] [除去エンジンの構成]

以上説明した理論に基づく除去エンジン 100の構成について説明する。図 3は、除去エンジン 100の機能を示すブロック図である。なお、本実施形態に係る除去ェンジン 100は、 CPU等の演算処理装置上で音響信号除去プログラムを実行することにより、 CPU上に仮想的に構築されるモジュールである。

[0040] 具体的には、図 3に示すように、除去エンジン 100は、信号入力手段として、混合音響信号が入力される混合音響入力部 101と、除去しょうとする既知音響信号を入力する既知音響信号入力部 102とを有し、除去処理が施された音響信号の出力手段として除去後音響信号出力部 107を有している。

[0041] また、除去エンジン 100は、入力された音響信号から振幅スペクトルを抽出する振幅スペクトル抽出部 200を備えている。具体的に、この振幅スペクトル抽出部 200は、データ分割部 201と、窓関数処理部 202と、フーリエ変換部 203とを備えている。

[0042] データ分割部 201は、混合音響信号を、特定の長さ（窓サイズ)の区間に分割する。一般の音声認識等では、一区間の長さを 20ミリ秒程度とするが、音声に比べて、音楽では同じ音が長く継続することから、本実施形態では、これよりも 10倍程度長い、 2 のべき乗である 8192サンプル（8192÷48,000=0.170約 170ミリ秒）としている。

[0043] 窓関数処理部 202は、データ分割部 201により分割された窓サイズ区間（170m秒）の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分において、なだらかにゼロに収束させる信号波形に変換する。

[0044] フーリエ変換部 203は、混合音響信号及び既知音響信号それぞれのデータをフーリエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。なお、振幅スペクトルのみ力もなるデータは「時間周波数データ」として出力される。

[0045] 詳述すると、このフーリエ変換部 203は、ハユング関数処理された音声データに対して、高速フーリエ変換 (FFT)を行う。なお、入力される音声データは実数のみで、虚数部が含まれ、この FFTでは入出力を複素数で計算することから、 2回の窓の変換を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関係を使って分離して 2倍の速度向上を実現している。なお、本システムではインテル社の Pentium4プロセッサ（登録商標）等で利用できる SSE2命令を使用し、処理の高速ィ匕を図っている。

[0046] そして、振幅スペクトル抽出部 200では、フーリエ変換する区間を 480サンプル (480

÷ 48,000=0.01： 10ミリ秒）単位で移動させ、窓関数処理部 202及びフーリエ変換部 2 03によるハユング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして 10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅のみ」を表すデータである「時間周波数データ」を取得する。このようにして得られた周波数チャンネルは、 0Ηζ,5.86Ηζ,11,72Ηζ,17.57Ηζ· ··.23,994.14Ηζというように、 ΟΗζ ( 直流）から約 5.86Hz毎に約 24kHzまでの 4096チャンネルとなる。

[0047] なお、振幅スペクトル抽出部 200は、入力された信号が混合音響信号であるときには、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部として機能し、入力された信号が除去しょうとする既知音響信号であるときには、既知音響信号から音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。

[0048] また、除去エンジン 100は、振幅スペクトル抽出部 200から抽出された既知音響の振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動推定結果をユーザー操作により修正するパラメータ推定部 300を備えて、る。このパラメータ推定部 300は、既知音響の周波数特性や強度、時間位置を推定し、混合音響中の既知音響と一致させるベぐ各パラメータの補正を行うモジュールであり、この補正は、一致度算定部 304において算定された一致度に基づいて実行される。

[0049] さらに、パラメータ推定部 300は、周波数特性補正部 301と、強度補正部 302と、時間位置補正部 303とを備え、これらにより (1)混合音響と既知音響の時間的な位置ずれ、（2)既知音響の周波数特性、及び (3)既知音響の音量の時間変化を推定する。

[0050] 周波数特性補正部 301は、周波数分布の推定を行うモジュールであり、この周波数分布の推定に際し、振幅スペクトルに対するィコライジング処理及びフエーダー操作処理のための任意の形状の関数である _c(co , t)について、 ω方向の形状を変化させることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整する。

[0051] また、周波数特性補正部 301は、音声チャンネルのうち BGMの音量が小さい部分ではノイズ等により得られる値が不安定となるため、周波数特性の平滑化を行う。この平滑ィ匕は、前後のチャンネルの平均値をとつてなめらかにすることによって実現される。

[0052] 強度補正部 302は、音量の時間変化の推定と平滑化とを行う。この音量の時間変化の推定に際しては、スペクトル関数 c( co , t)の t方向の形状を補正することにより、ミキサ一のボリュームフエーダー操作のように、既知音響信号除去後の音量変化を調整することができる。 [0053] 本実施形態において強度補正部 302は、混合音全時間域にわたって、既知音響の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含まれているため、混合音と周波数特性で補正した既知音響の周波数チャンネルを 1ォクターブ毎 (周波数で 2倍毎）にまとめて合計する。同じ時刻毎に比較し、既知音響に対して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ毎に比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映させることができる。これをその時刻での既知音響と混合音の音量比とする。

[0054] なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなることを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計的手法など自動的に判断する方法を採用してもよ!、。

[0055] また、強度補正部 302は、時間変化の推定でも平滑化を行い、時間前後の既知音響の音量の平均値をとつてなめらかにする。

[0056] 時間位置補正部 303は、混合音響の開始点と、既知音響の開始点の時間的な位置ずれを補正するモジュールである。なお、本システムでは、上記手順を実行して自動推定することも、予め決めた時間のずれを、ユーザーが指定して、自動推定しないことを選択することができる。また、ユーザーの耳での混合音と既知音響とを左右別々のスピーカーから出力し、これらの音声を比較しながら聴き、ユーザーの聴覚により位置合わせをするようにしてもょヽ。

[0057] さらに、除去エンジン 100は、振幅スペクトル抽出部 200によって抽出された混合音響振幅スペクトル力既知音響振幅スペクトルを除去する除去処理部 104と、逆フ一リエ変換して、除去後の音響を重畳変換し復元するオシレータ部 105及び配置処理部 106を備えている。除去処理部 104は、既知音響をパラメータ推定部 300で生成した推定データに応じて変換し、この変換した信号を混合音響の「時間周波数データ」から、除去する。

[0058] 前記オシレータ部 105は、差し引き計算によって得られた「時間周波数データ」と、混合音響信号中の位相データとから、既知音響を消した音声のみのデータを重畳変換により復元する。なお、このオシレータ部においては、力かる重畳変換によらず、逆フーリエ変換を行ってもよい。なお、逆フーリエ変換に際しては、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換する力このときの各チャンネルの音声の位相は、除去する前の既知音響又は混合音響の位相と同じ値を取るようにする

。この操作によって、除去前の音声の位相が維持でき、また区間毎に「プチプチ」というノイズが発生するのを防ぐことができる。なお、 IFFTの高速ィ匕については時間周波数データを作成する場合と同じ手法を用いてヽる。

[0059] 配置処理部 106は、ハユング窓の幅である 170ミリセカンドの幅をもつ各時刻の音声について、同じ幅の窓の出力をオーバーラップアド（OverlapAdd)法で重ね合わせて、最終的に音楽が除去された音声を復元する。

[0060] 除去後音響信号出力部 107は、既知音が除去された混合音響を音声データとして出力するモジュールである。なお、本実施形態では、除去後音響信号出力部 107は、一致度算定部 304において算定された一致度に応じて、混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去する音響除去部として機能する。

[0061] [除去エンジン]

次いで、上述した除去エンジン 100について詳述する。除去エンジン 100による処理の流れを図 4に示す。

[0062] 同図に示すように、先ず、除去エンジン 100は、ステップ S201において、フーリエ変換により、混合音響信号カゝら混合音響信号の位相及び振幅スペクトルを取得する。本実施形態では、除去エンジン 100は、音響信号を標本化周波数 48kHz、量子化ビット数 16bitで A/D変換し、窓関数 h(t)として窓幅 8192点のハユング窓を用いた ST FTを、高速フーリエ変換 (FFT)によって計算する。その際、除去エンジン 100は、 FFTのフレームを 480点ずつシフトし、フレームシフト時間 (1フレームシフト)は 10msとなったフレームシフトを、処理の時間単位とする。なお、除去エンジン 100は、他の標本化周波数 (16kHz、 44kHz等)や窓幅、フレームシフトにも容易に対応できるようになつている。

[0063] これと併せて、除去エンジン 100は、ステップ S 202において、既知音響信号のフーリエ変換を行、、既知音響信号の振幅スペクトルを取得する。

[0064] そして、一致度算定部 304が、混合音響の振幅スペクトルと既知音響の振幅スぺクトルを用いて、混合音響及び既知音響信号の時刻ごとの周波数特性と強度点をプロットし、プロットされた強度点に対する共通直線力もの乖離度力も一致度を比較し (S 203)、また、共通線の傾きから周波数特性及び強度の推定を行う。この一致度の算定、及び共通線の傾きの算定は後述する。

[0065] 一致度算定部 304により算定された一致度に応じて、時間位置補正部 303が、既知音響信号の開始時刻を検出するとともに、既知音響信号の振幅スペクトルを補正する（S204及び S205)。

[0066] そして、混合音響信号の振幅スペクトルから既知音響信号の補正後の振幅スぺタトルを除去し（S206)、除去後の振幅スペクトルを、オシレータ部 105において、混合音響信号の位相に対して重畳変換し (S 207)、配置処理部 106においてオーバーラップアド（Overlap Add)法により、配置変換する（S208)。また、ステップ S203において算定された一致度により、既知音響のみの範囲を判別し、既知音響のみの範囲を除去後音響信号出力部 107において除去する（S209及び S210)。

[0067] (一致度及び強度の算定）

そして、上述したステップ S204では、一致度算定部 304が、混合音響と既知音響の一致度を計算する。具体的には、一致度算定部 304が、混合音響と既知音響の振幅スペクトルの強度を比較し、これらの一致度を算定する。具体的には、以下の手川頁による。

[0068] (1)手順 1

一致度算定部 304は、混合音響信号、既知音響信号およびそれぞれをフーリエ変換して得られた振幅スペクトルに対して与えられた混合音響の区間（Tms,Tme)と既知音響の区間（Tms,Tme)と仮定される開始時刻のずれ (Td)より一致度を求める。なお、 Tdが Tf (フーリエ変換時のフレーム長）の倍数となっている場合は、一致度算定部 304は、ステップ S201で求めた振幅スペクトルを使用することができる。それ以外の場合は、一致度算定部 304は、毎回振幅スペクトルを計算する。

[0069] (2)手順 2

一致度算定部 304は、混合音響内に既知音響が含まれている共通区間を求める。これを (Ts,Te)とすると、以下の式が求められる。 [数 1]

Ts = max( Tms, Tbs - Td)

Te = mn{Tme, Tbe - Td)

[0070] この区間内での音響フレーム数 Nは次の式で与えられる。

[数 2]

Nf = (Te - Ts) tTf+ l

[0071] このため範囲内のフレームの時刻 Tiは以下の式を満たす Nf個の値をとる。

[数 3]

Ts≤ T ₃ , Τ^ ,Α ,T < Te

[0072] (3)手順 3

そして、一致度算定部 304は、図 5に示すように、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定する。

[0073] 具体的には、一致度算定部 304は、混合音響振幅スペクトル M ( ω、 t)、既知音響振幅スペクトル Β ( ω、 t)について、時間軸方向および周波数軸方向（対数プロット）に時刻と周波数を単位とした定常ブロックに分割する（例えば図 5のように、定常プロックの横幅の時間は 200ミリ秒（20フレーム）、縦幅は約 0.5オクターブとなっている）。

[0074] (4)手順 4

次いで、一致度算定部 304は、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定する。具体的には、一致度算定部 304は、定常ブロックごとに、そのブロックを囲むさらに大きな推定ブロックを設定する（例えば図 5では、横幅は 400ミリ秒 (40フレーム）、音程は約 1オクターブとなっている。一致度算定部 304は、この推定ブロックに含まれるデータを使用して実際の既知音響 (BGM)の強度を推定する)。

[0075] なお、ブロックの大きさは任意の大きさが可能である。すなわち、本実施形態では、ブロックの大きさは、図 5に示すように、定常ブロックと周波数低域幅と時間幅とで矩形状であるが、例えば、図 6に示すように、時間幅で区切った短冊状のブロックであつてもよい。計算量 (計算速度)を問わなければ、「定常ブロック」の横幅や縦幅は最小 ( 横 10ミリ秒、縦 1チャンネル)でもよぐそれだけより精密な推定が可能である。逆に「定常ブロック」の横幅や縦幅を大きくすることによって計算量を小さくし高速ィ匕が可能である。

[0076] (5)手順 5

その後、一致度算定部 304は、ブロックごとの平均信号強度 (スペクトル強度)を算出する。具体的には、全ての推定ブロックについて以下の処理が行われる。混合音響振幅スペクトルについて設定された推定ブロックの範囲が時間軸（Tks< Ti< Tke) 、周波数軸（co ksく co K co ke)である場合に、当該範囲に含まれる Tiと ω ίを用いた全ての混合音響振幅スペクトル値 Μ ( ω ί、 Ti)と、仮定される開始時刻のずれ Tdとに対応する既知音響振幅スペクトル値 B ( ω Ti+Td)の全ての組を求める。

[0077] (6)手順 6

次いで、一致度算定部 304は、この推定ブロック内での一致度を以下のいずれかの手順で求める。具体的には、一致度算定部 304は、図 7に示すように、既知音響振幅スペクトル及び混合音響振幅スペクトル間にお、て対応する推定ブロックのスぺクトル強度を平面上にプロットし、全てのスペクトル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定するとともに、乖離度が最も低い共通線を求め、その共通線の傾きによって、スペクトル強度を求める。図 7 (a)では、強度点が共通直線上にほぼ位置することから一致度が高ぐ図 7 (b)では、既知音響以外の音響 (音声やノイズ)や、同一周波数上での干渉により、一致度が低下している。

[0078] 力かる共通線の算定には、以下の手順が用いられ得る。

[0079] (6— 1)単純相関法

該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。

[数 4]

次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1 に近い大きな値をとる。なお推定ブロック内の標本数 (全ての ω ίと Tiを尽くした場合の数）を Nsとする。

[数 5]

„ , ,„ SumM *SumB

SumMB ——―

一致 j¾o = ― 严

、 MM- ?≡ L - LmBB-

[0081] (6— 2)離散型ロバスト統計法

この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きとする。すなわち、この手法は、典型的なロバスト統計手法であり、原点を通る直線となる一次回帰手法等を用いてあてはまる直線を求め、次に、この直線力も遠い点を探し、遠い方から 10%の点を排除する。そして、残った点について再度、あてはまる直線を求め、残った点のうちさらに、新しい直線力も遠い点を 10%ほど排除する。この処理を 5回程度繰り返すと、あてはめるべき点として 50%の点が残り、最後にあてはめられた直線の傾きが結果となる。削減する量や設定方法については Vヽろヽろな手法を用いてょ、。

[0082] 一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである。

[0083] 具体的には、該当する全ての Tiと ω ίについて初期値を 1とした Wを定める。このとき [数 6]

[0084] とし、標本の比率を Rs≡ 1.0とおく。

[0085] そして、該当する全ての Tiと ωίについて以下の式に従い総和を求める。標本の比率 Rsが 0.5以下の場合は手順 5にすすむ。

[数 7] Τά)

[0086] 手順 3.標準比 _αを次の式で求める。

[数 8]

a = SumMB! SumBB

[0087] 手順 4.該当する全ての Tiと ωίについて標準比からのずれを求める。

[数 9]

Diff{m,Ti)= (Μ{απ,Τί)-α* Β{ΰπ,Τί + Τά)γ

[0088] 手順 5. Rsより一定値 Csを引く。一定値は 0.0より大きく 0.5より小さな値とする。（例えば Csとして 0. 1を用いる）

[数 10]

0.0く < 0.5

Rs=Rs-Cs

[0089] ずれの小さなもの力順に（標本数 * Rs)個につ!/、て、 Wを 1に設定する。

[数 11]

[0090] 残りの（標本数 * (1.0-Rs))個については Wを 0に設定する。

[数 12]

W{ax, Ti)≡ 0

[0091] ここで、最後に求めた aを既知音響のこの定常ブロック内での強度とする。また、該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。

[数 13] Td)

[0092] 次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1 に近い大きな値をとる。

[数 14]

„ „ S mM*SumB

S mMB- 一致墩 = ,

\SumMM- ^SumMi * humBB- ^S "

Ms Ns

[0093] (6— 3)連続ロバスト統計法

この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きを求める。上記（6— 2)の手法では、選ばれな力つた点は全て捨てられてしまうが、本手法では、捨てずに直線からの距離にしたがった重みをつけて計算する。距離に対する重み関数により、距離に従って、それらの関数を重みとして掛けて統計を取る。

[0094] 具体的には、該当する全ての Tiと ω ίについて初期値を 1とした Wを定める。

[数 15]

[0095] 該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。

[数 16]

[0096] 標準比 ocを次の式で求める。 [数 17]

a = SumMBS SumBB

[0097] 最後に求めた ocを既知音響のこの定常ブロック内での強度とする。また、該当する全ての Tiと ω iにつ!/、て標準比からのずれを求める。

[数 18]

Dif(ax,Ts)^ ( (cm, Ti) ~ a* B{(m, i + Td)) ²

[0098] ずれの小さなものから順に（標本数 * 0.5)個目のずれの大きさ Dmidiumを求める。

常に正値をとり、 0より大で単調減少する関数 Ωを用いて W(coi, Ti)の値を定める。例えば Ωとしては、

[数 19]

d{x) = e¾)(-x²)

[0099] 等の関数を用い、

[数 20]

W (ia, Ti) = 0(Di f{aji, Ti) f Dmidium)

[0100] により、 Wを求める。そして、該当する全ての Tiと ωίについて以下の式に従い総和を求める。

[数 21]

SumB = y W ai,Ti)*B(ai,Ti + Td)

SumBB= yヌ (iii.Ti) * B(ai, Ή + Td) * B(ai ,71 +7d)

[0101] 次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1 に近い大きな値をとる。

[数 22] „ . ,„ SumM * SumB

S mMB- 一致 J¾C) - 严

N Νε

[0102] (6— 4)重みつき統計

この手法では、共通線の傾きを、平面の X軸及び Υ軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、各重みを、原点を通る直線から各スぺクトル強度点までの距離に積算し、その統計により得られた直線の傾きとする。すなわち、 X軸 Υ軸のスケールがほぼ同じという性質を使った計算量の小さい簡単な方法であり、例えば、一次回帰を計算する場合に、例えば重みとして Χ*Υ をかけ、 X軸や Υ軸に近い点を軽視し、 (Χ*Υ)の二乗や高次の項を掛ける方法がある。

[0103] 具体的には、 W(coi、Ti)を定め、 Μ(ωί、Τί)及び Β(ωί, Ti+Td)が大きくなるほど大きくなる重み関数 W(coi、 Ti)を定める。例としては以下のようなものがある。

[数 23]

W(ai, Ti) = M{ai, Ti) + B( i,Ti + Td)

W(ai, Ti) = (ai, Ti) * B{ai, Ti + Td)

Ψ{οΑ,η)=~ {Μ{(ά,ΤίΥ Β{οΛ,Τί + Td))²

[0104] 該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。

[数 24]

Su B = YW(ea_r7i)*B(ax,Ti + Td)

SumMB *B(ai,Ti + Td)

SumMM= ^^W{ca ,Τι)* M{ax , Ti) *M ai,Ti)

+ Td) K、 ₉Ti + Td)

[0105] その後、標準比 aを次の式で求める。

[数 25]

a = SumMBt SumBB

[0106] このを既知音響のこの定常ブロック内での強度とする。また、以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1に近い大きな値をとる。

[数 26] 一致 J¾C) =

[0107] 求めた一致度を、全ての推定ブロックについて求め、平均を求める。なお、経験上明らかにノイズが多いと思われる周波数帯域 (極度に低い周波数、高い周波数）について除外し、一致度の精度を向上させることもできる。

[0108] (6— 5)順位法

なお、共通線の傾きは、以下の手順によっても求めることができる。この手順では、原点から各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度点を通る直線の傾きを求める。すなわち、上記のグラフ内の全てのプロット点についてその原点から見こんだ傾きを求め（各点の混合音/ BGMの値）、ある点の値が（BGM = 20、混合音 =30)であれば、その傾きは混合音/ BGMで 1.5となり、同じように「推定ブロック」内の全ての点についてこの傾きを求める。

[0109] これらを大きい順にソートし、半数以上が BGMのみの音であればちょうど順位が中央の点は求めるべき直線上にあることが明らかなので求めることができる。

[0110] 詳述すると、オペレータが混合音響中に含まれていると期待できる、既知音響の最大限の比率を与える。この値を Erとする。

[0111] 該当する全ての Tiと ω iにつ!/、て以下のように比を求める。

[数 27]

[M{ai,7i) S Β{(ά,Τϊ + Τά) if B(ni,Ti + Td)≠ 0

I π= / Β(αχ , Τϊ + Τα) = 0

[0112] 該当する全ての Tiと ω ίについて R ( co i, Ti)を小さい順にならベ、小さい方から数えて「標本数 X Er」番目の R ( ω i, Ti)を既知音響のこの定常ブロック内での強度とする

[0113] [プログラムを記録したコンピュータ読み取り可能な記録媒体]

なお、上述した実施形態及びその変更例に係る音響信号除去システムは、例えば、ユーザー端末や Webサーバ等のコンピュータや ICチップにインストールされた音響信号除去プログラムと、コンピュータに備えられる CPU、メモリ、ハードディスク等とによって実現される。従って、音響信号除去プログラムをインストールすることにより、上述した各機能を備える音響信号除去装置や音響信号除去システムを容易に構築すること、及び、音響信号除去方法を実施することが可能となる。この音響信号除去プログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するノッケージアプリケーションとして譲渡することができる。

[0114] そして、このようなプログラムは、図 8に示すような、汎用コンピュータ 120で読み取り可能な記録媒体 116— 119に記録することができる。具体的には、同図に示すような、フレキシブルディスク 116やカセットテープ 119等の磁気記録媒体、若しくは CD— R OMや DVD— ROM 117等の光ディスクの他、 RAMカード 118など、種々の記録媒体に記録することができる。

[0115] そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述した音響信号除去システムを構築したり、音響信号除去方法を実施したりすることが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。

[0116] [実施形態における作用，効果]

以上説明した本実施形態によれば、振幅データは位相が変化してもかわらなヽので、位相に依存しない処理が可能となる。したがって、例えば、音声と音楽が混じつた番組の音声信号から、番組作成時に使用した音楽 CD等の音のデータを使って、音楽だけを除去することができる。

[0117] 例えば、二人の男女の対話の BGMにクラシック音楽が鳴っている混合音を実際に処理した結果を図 9に示す。図 9のグラフ 501に示す混合音から、図 9のグラフ 502に示す元音源の既知音響信号 (BGM成分)を除去した結果、図 9のグラフ 503に示す既知音響信号除去後の音響信号が得られる。

[0118] 特に、番組音声作成時において、製作意図に合わせて周波数特性や音量が調整され、音の位相が予測不能な変化をしている場合であっても、混合音響中における音楽の変化を自動的且つ高精度に予測し、位相に依存せず除去することができる。 [0119] 本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部 9により、映像と音声とを同期させてモニタ 10及びスピーカー 11から出力するため、音楽除去前、音楽除去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながらの操作が可能となり、作業効率を向上させることができる。

[0120] 本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローィングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するなどユーザーの意図に基づいて、音楽除去の効果を調節することができる。産業上の利用の可能性

[0121] 以上のように、本発明に係る音響信号除去装置は、混合音響中から、除去しようとする音響を適正に除去することができるため、コンテンツを再利用する際の音響除去作業に対して有用である。

Claims

請求の範囲

[1] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出する既知音響振幅抽出部と、

前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、

前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、

算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる時間位置補正部と、

前記時間位置補正部により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、

を備え、前記一致度算定部は、

前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、

前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、

全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する

ことを特徴とする音響信号除去装置。

[2] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出する既知音響振幅抽出部と、

前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正する周波数特性補正部と、

前記周波数特性補正部により周波数特性が補正された前記既知音響振幅スぺ外ルを、前記混合音響振幅スペクトルから除去する除去処理部と、

を備え、前記一致度算定部は、

ことを特徴とする音響信号除去装置。

除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出する既知音響振幅抽出部と、

算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去する音響除去部と

を備え、前記一致度算定部は、

ことを特徴とする音響信号除去装置。

[4] 前記共通線は直線であり、

前記除去処理部は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する

ことを特徴とする請求項 1又は 2に記載の音響信号除去装置。

[5] 共通線の傾きは、前記スペクトル強度点が N個ある場合、

原点力前記各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度点を通る直線の傾きである

ことを特徴とする請求項 4に記載の音響信号除去装置。

[6] 共通線の傾きは、

一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである

ことを特徴とする請求項 4に記載の音響信号除去装置。

[7] 共通線の傾きは、

一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである

ことを特徴とする請求項 4に記載の音響信号除去装置。

[8] 共通線の傾きは、

前記平面の X軸及び Y軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、

各重みを、原点を通る直線力各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである

ことを特徴とする請求項 4に記載の音響信号除去装置。

[9] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出するステップ（1)と、

前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（2)と、

算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ（3)と、

前記ステップ (3)により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトル力も除去するステップ (4)と

を備え、前記ステップ（2)では、

ことを特徴とする音響信号除去方法。

除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出するステップ（1)と、

算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ（3)と、

前記ステップ（3)により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ (4)とを備え、前記ステップ（2)では、

ことを特徴とする音響信号除去方法。

[11] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出するステップ（1)と、

前記ステップ (2)により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去するステップ (4) と

を備え、前記ステップ（2)では、

ことを特徴とする音響信号除去方法。

[12] 前記共通線は直線であり、

前記ステップ (4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する

ことを特徴とする請求項 9又は 10に記載の音響信号除去方法。

[13] 共通線の傾きは、前記スペクトル強度点が N個ある場合、

ことを特徴とする請求項 12に記載の音響信号除去方法。

[14] 共通線の傾きは、

ことを特徴とする請求項 12に記載の音響信号除去方法。

[15] 共通線の傾きは、

ことを特徴とする請求項 12に記載の音響信号除去方法。

[16] 共通線の傾きは、

ことを特徴とする請求項 12に記載の音響信号除去方法。

[17] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出するステップ（1)と、

前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ（2)と、算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ（3)と、

前記ステップ (3)により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ (4)とを備え、前記ステップ（2)では前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、

ことを特徴とする音響信号除去プログラム。

前記ステップ（3)により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ (4)と

を備え、前記ステップ（2)では、

ことを特徴とする音響信号除去プログラム。

[19] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振幅スペクトルを抽出するステップ（1)と、

を備え、前記ステップ（2)では、

ことを特徴とする音響信号除去プログラム。

[20] 前記共通線は直線であり、

ことを特徴とする請求項 17又は 18に記載の音響信号除去プログラム。

[21] 共通線の傾きは、前記スペクトル強度点が N個ある場合、原点力前記各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度点を通る直線の傾きである

ことを特徴とする請求項 20に記載の音響信号除去プログラム。

[22] 共通線の傾きは、

[23] 共通線の傾きは、

[24] 共通線の傾きは、