WO2006120829A1

WO2006120829A1 - 混合音分離装置

Info

Publication number: WO2006120829A1
Application number: PCT/JP2006/307673
Authority: WO
Inventors: Shinichi Yoshizawa; Tetsu Suzuki; Yoshihisa Nakatoh
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-05-13
Filing date: 2006-04-11
Publication date: 2006-11-16
Also published as: US20090067647A1; EP1881489B1; EP1881489A4; CN101040324A; EP1881489A1; CN100585701C; DE602006018282D1; JP4041154B2; JPWO2006120829A1; US7974420B2

Abstract

　混合音（Ｓ１００）中より特定の音を分離する混合音分離システム（１００）は、所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形（Ｓ１０２）と混合音（Ｓ１００）の波形である被分析波形とから、所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む局所分析波形（Ｓ１０２）に対応する複数の局所周波数情報（Ｓ１０３）を求める局所周波数情報作成部（１０５）と、複数の局所周波数情報（Ｓ１０３）を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間のパターンマッチングの結果に基づいて、複数の局所周波数情報（Ｓ１０３）の組を抽出する被分析波形周波数特徴量抽出部（１０６）と、被分析波形周波数特徴量抽出部（１０６）で抽出された複数の局所周波数情報（Ｓ１０３）の組に基づいて、特定の音の信号を作成する音信号作成手段とを備える。

Description

明細書

混合音分離装置

技術分野

[0001] 本発明は、混合音から所望の音を分離する混合音分離装置に関する。

背景技術

[0002] 混合音から所望の音を分離する装置として混合音分離装置がある。混合音分離処理では、混合音を周波数分析することにより、縦軸を周波数、横軸を時間とし、それぞれの点におけるパワーの強弱を濃淡で示したスペクトログラムを作成する。また、当該処理では、スペクトログラム上で、混合音から所望の音を分離する。このような処理により音の分離性能が高くなる。このように音声力もスペクトログラムへの変換方法、すなわち音声の周波数分析方法としては、フーリエ変換が一般的に用いられる。このため、フーリエ変換は、混合音分離処理において、重要な役割を担っている。

[0003] 周波数分析を行うための従来技術としては、上述したフーリエ変換 (例えば、非特許文献 1、非特許文献 2参照)の他に、コサイン変換 (例えば、非特許文献 2参照)およびウェーブレット変換 (例えば、非特許文献 1参照)などが知られている。これらの従来技術では、被分析波形と所定の時間幅をもつ分析波形との相互相関 (畳み込み）を用いて、周波数分析が行われる。

[0004] フーリエ変換では、時間分解能 (空間分解能)と周波数分解能とから決定された時間幅をもつコサイン波形およびサイン波形 (上記時間幅以外の時間区間ではゼロの値をもつ分析波形)を用いて周波数分析が行われる。

[0005] ここで、分析波形の時間幅を決めることは、フーリエ変換における分析フレーム幅（時間幅)を決定することと等価である。また、被分析波形に、分析対象区間 (分析波形が存在する時間区間）ではゼロでな!、値をもつ窓関数をかけて周波数分析を行うことちある。

[0006] 図 1は、フーリエ変換 (離散フーリエ変換)の方法を説明する図である。図 1 (a)に示すサンプリングポイントで Nポイントの時間幅をもつコサイン波形およびサイン波形である分析波形を用いて、数 1により、図 1 (c)に示す被分析波形と分析波形との相互相関 (畳み込み)を求めることで (図 1 (b) )、被分析波形の周波数情報 (振幅スぺタトルおよび位相スペクトル）を求める。ここで数 1のインデックス kは、分析する周波数を示すインデックスであり、フーリエ変換では、複数の分析する周波数での周波数情報を同時に求めることになる。インデックスの値が大きいほど高い周波数での分析結果を示す。

[0007] [数 1]

1，2，...，ここで、

[0008] [数 2]

χ_η Ο = 1，2,.·"Λ

は、被分析波形をサンプリングした値であり、

[0009] [数 3]

X_k ( = 1,2"··, ）は、被分析波形の周波数情報であり、

[0010] 画

は、 Nポイントの時間幅をもつコサイン波形とサイン波形力構成される値、すなわち分析波形の値である。

[0011] フーリエ変換では、分析波形の時間幅の設定により、時間分解能と周波数分解能との両方の値が自動的に決定される。ここでいう「時間分解能」とは、被分析波形と分析波形との相互相関（畳み込み）を求めるときに平均化する時間区間の長さのことである。「周波数分解能」とは、被分析波形の周波数成分が通過する周波数帯域幅のことであり、分析する周波数の周辺に当該帯域幅が存在する。

[0012] 図 2は、所定の時間幅をもつ分析波形と、被分析波形を上記分析波形により周波数分析したときの周波数特性との関係を示した図である。図 2には、 3種類の時間分解能を用いて周波数分析を行なった場合の周波数特性を示しており、左列より 1周期分、 2周期分および 3周期分の時間分解能を持つ分析波形を用い周波数分析を行なった場合の分析波形と周波数特性との関係を示している。

[0013] 図 2より、 1周期分のコサイン波形を分析波形に用いて時間分解能を細力べして周波数分析を行なったときには周波数分解能が粗くなり、 3周期分のコサイン波形（1周期分のコサイン波形と比較して時間幅が 3倍になったもの）を分析波形に用いて時間分解能を粗くして周波数分析を行なったときには周波数分解能が細力べなることがわかる。このように、従来技術では時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能とはトレードオフの関係にある。

[0014] なお、連続値をもつ被分析波形におけるフーリエ変換の場合は、数 1にお、て∑演算の代わりに、積分の形をした被分析波形と分析波形との相互相関 (畳み込み)を用いて周波数分析を行うことになる。

[0015] コサイン変換では、時間分解能 (空間分解能)と周波数分解能とから決定された時間幅をもつコサイン波形 (上記時間幅以外の時間区間はゼロの値をもつ分析波形）を用いて周波数分析が行われて、る。

[0016] 図 3は、コサイン変換 (離散コサイン変換)を説明する図である。図 3 (a)に示すサンプリングポイントで Nポイントの時間幅をもつコサイン波形 (上記時間幅以外の時間区間ではゼロの値をもつ分析波形)を用いて、数 5、数 6により、図 3 (c)に示す被分析波形と分析波形の相互相関 (畳み込み)を求めることで (図 3 (b) )、被分析波形の周波数情報 (振幅スペクトルと位相スペクトルとを合わせて表現したもの）を求める。ここで数 5、数 6のインデックス kは、分析する周波数を示すインデックスであり、コサイン変換では、複数の分析する周波数での周波数情報を同時に求めることになる。インデッタスの値が大き、ほど高、周波数での分析結果を示す。

[0017] [数 5]

V _{η Λ} _ _¾Γ、

^Xi (

[0018] [数 6]

ここで、

[0019] [数 7]

は、被分析波形をサンプリングした値であり、

[0020] [数 8]

X_k ( = 1,2 ."A

は、被分析波形の周波数情報である。

[0021] コサイン変換では、分析波形の時間幅の設定により、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能との両方が自動的に決定される。この仕組みは、フーリエ変換の場合と同様である（図

2を参照)。

[0022] なお、連続値をもつ被分析波形におけるコサイン変換の場合は、数 5は、積分の形をした被分析波形と分析波形との相互相関 (畳み込み)を用いて周波数分析を行うことになる。

[0023] ウエーブレット変換では、時間分解能 (空間分解能)と周波数分解能とから決定された時間幅をもつウェーブレット基底関数を用いて周波数分析が行われている。

[0024] 図 4は、ウェーブレット変換を説明する図である。図 4において、図 4 (a)に示すような所定の時間幅をもつ分析波形であるウェーブレット基底関数 (上記時間幅以外の時間区間ではゼロの値をもつ分析波形)を用いて、図 4 (b)に示す式、すなわち数 9 により、図 4 (c)に示す被分析波形と図 4 (a)に示す分析波形の相互相関 (畳み込み) を計算することにより、被分析波形の周波数情報 (振幅スペクトルおよび位相スぺタトノレ）を求める。

[0025] [数 9]

(W x)(b,a) =了

ここで、 Xは、被分析波形であり、

[0026] [数 10] - b.

ψ{—— )

a は、ウェーブレット基底関数である。

[0027] ウェーブレット変換では、ウェーブレット基底関数の時間幅を決定することにより、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能との両方が自動的に決定される。この仕組みは、フーリエ変換の場合と同様である（図 2を参照)。

[0028] なお、ウェーブレット変換では、分析する周波数ごとに、独立に、時間分解能 (または周波数分解能)を設定することができる。一方、フーリエ変換では、全ての分析する周波数は、同じ時間分解能 (分析する時間窓の時間幅)および周波数分解能をもつことになり、分析する周波数ごとにこれらを独立に設定することはできない。ただし、ウェーブレット変換でも、時間分解能 (または周波数分解能）により周波数分解能（または時間分解能）が自動的に決定されることは同じである。

[0029] なお、ここではウェーブレット基底関数としてメキシカンハットを用いて説明した力ドベシィ、メイエ、ガボールなどのウェーブレット基底関数を用いたウェーブレット変換もある。

非特許文献 1 :中野宏毅、外 2名、 "ウェーブレットによる信号処理と画像処理"、 199 9年 8月 15日、共立出版株式会社、 pp. 35— 39、 pp. 49- 52

非特許文献 2 :中川聖一、 "パターン情報処理"、平成 11年 3月 30日、丸善株式会社、 pp. 14- 19

発明の開示

発明が解決しょうとする課題

[0030] 従来技術では、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能 (被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯域幅）とは、互いに干渉する。このため、分析波形の時間幅を短くして時間分解能を細力べすると周波数分解能が粗くなり、分析波形の時間幅を長くして周波数分解能を細力べすると時間分解能が粗くなる。そのため、時間分解能と周波数分解能とを独立に設定することができないという課題がある。

[0031] 例えば、混合音分離システムにおいて、突発音と楽音とから構成される混合音から楽音を抽出するには、突発音の分析として時間分解能を細力べして微小時間での波形の変化を分析する必要があり、楽音の分析として周波数分解能を細力べして微小周波数帯域での周波数の変化を分析する必要がある。このため、両者が混合した時間'周波数領域に対しては、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能 (被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯域幅）とを同時に細力べする必要があるが、トレードオフの関係にある両者を同時に細力べ設定することは従来技術ではできない。このため、混合音の中から高い精度で抽出したい音を抽出することができない。

[0032] そこで、本発明は、このような問題点に鑑みてなされたものであり、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能 (被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯域幅）とをあた力も同時に細力べ設定して周波数分析を行なったかのような結果に基づヽて、混合音から特定の音を高！ヽ精度で分離することができる混合音分離装置等を提供することを目的とする。

課題を解決するための手段

[0033] 上記目的を達成するために、本発明のある局面に係る混合音分離装置は、複数の音から構成される混合音中より特定の音を分離する混合音分離装置であって、所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間のパターンマッチングを行な、、当該パターンマッチングの結果に基づ!/、て、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出手段と、前記特定音周波数特徴量抽出手段で抽出された前記複数の局所周波数情報の組に基づ、て、前記特定の音の信号を作成する音信号作成手段とを備える。

[0034] これによつて、時間分解能と周波数分解能を独立に設定することができ、複数の周波数分解能 (複数の時間分解能)でそれぞれ周波数分析された複数の局所周波数情報の組と、予め定められた特定の音に対する周波数情報の組とを比較することにより、あた力も時間分解能と周波数分解能を同時に細力べして周波数分析したかのような結果を得ることができる。このため、混合音の中から高い精度で抽出したい音を取り出すことができる。

[0035] また、上述の混合音分離装置は、さらに、前記所定の周波数分解能に基づいて、前記分析波形の時間幅を決定する分析波形時間幅決定手段を備えて!/ヽてもよヽ。

[0036] 好ましくは、前記分析波形は、コサイン波形またはサイン波形を含み、前記分析波形時間幅決定手段は、前記所定の周波数分解能に基づいて、前記分析波形が整数周期分のコサイン波形または整数周期分のサイン波形の分析波形を含むように前記分析波形の時間幅を決定することを特徴とする。

[0037] これによつて、被分析波形を分析するための周波数帯域通過フィルタの設計が容易になる。

[0038] さらに好ましくは、前記整数周期は、 1周期であることを特徴とする。

[0039] これによつて、細かい時間分解能で周波数分析できる。

[0040] また、上述の混合音分離装置は、さらに、周波数分解能の入力を受付ける周波数分解能入力受付手段を備え、前記分析波形時間幅決定手段は、入力された前記周波数分解能に基づヽて、前記分析波形の時間幅を決定することを特徴としてヽてもよい。

[0041] これによつて、被分析波形の性質やアプリケーションの仕様などに基づいて、周波数分解能を制御することができる。

[0042] また、上述の混合音分離装置は、さらに、前記所定の時空間分解能に基づいて、前記分析波形を、時間的に重なることのないように分割して、前記複数の局所分析波形を作成する分析波形分割手段を備えることを特徴として!ヽてもよヽ。

[0043] これによつて、被分析波形を分析するための周波数帯域通過フィルタの設計が容易になる。

[0044] また、前記分析波形分割手段は、複数の時空間分解能を有するように前記分析波形を分割して、前記複数の局所分析波形を作成することを特徴としてヽてもよヽ。

[0045] これによつて、被分析波形の時間的性質に対応した複数の時間分解能を設定することができる。

[0046] また、上述の混合音分離装置は、さらに、時空間分解能の入力を受付ける時空間分解能入力受付手段を備え、前記分析波形分割手段は、入力された前記時空間分解能に基づいて、前記分析波形を分割して、前記複数の局所分析波形を作成することを特徴としていてもよい。 [0047] これによつて、被分析波形の性質やアプリケーションの仕様などに基づいて、周波数分解能を制御することができる。

[0048] 本発明の他の局面に係る周波数分析装置は、所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析する装置であって、前記分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、前記局所周波数情報作成手段で求められた前記複数の局所周波数情報を組とし、当該組と前記被分析波形の周波数情報とから、所定の周波数分解能で前記被分析波形に含まれる周波数特徴量を抽出する被分析波形周波数特徴量抽出手段とを備えることを特徴とする。

[0049] 図 5〜図 9を用いて、本発明のポイントを説明する。

[0050] 図 5は、本発明の全体構成を説明する図である。図 5の例では、図 5 (a)に示すような所定の周波数分解能に基づいて分析波形の時間幅を決定している。すなわち、図 5 (b)に示すように 3周期分のコサイン波形を分析波形としている。例えば、 3人の音声から構成される混合音を分離する場合には周波数分解能を細かくする設定する必要があるため、周波数分解能が約 15Hzになるように分析波形の時間幅を設定する。

[0051] ここで、従来技術である離散コサイン変換を用いて周波数分析を行った場合、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は分析波形の時間幅により決定され、時間分解能は 3周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。そのため、被分析波形の細かい時間的な構造 (3周期分のコサイン波形の時間幅よりも細かい時間間隔での周波数情報の変化）が表現できなくなってしまう。

[0052] そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する。例えば、音声を分析する場合には、音声の基本波形の構造が見えるように基本波形の長さよりも細かい時間間隔に分析波形を分割する。図 5の例では、図 5 (c)に示すように分析波形を 1周期分のコサイン波形に分割して、 3個の局所分析波形を作成する。ここでの時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は、 1周期分のコサイン波形の時間幅であり、 3周期分のコサイン波形の時間幅と比べて細力べなっている。すなわち、時間分解能は、周波数分解能とは独立に細力べ設定されている (ただし、 3個の局所分析波形は、同一の分析波形からそれぞれ抽出された波形である。 )

[0053] 次に、図 5 (c)に示すように 3個の局所分析波形を用いて周波数分析を行うことで、 3個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析波形との相互相関（畳み込み）を計算することで求める。

[0054] ここで、従来技術である離散コサイン変換により、 3周期分のコサイン波形である分析波形を用いて求めた周波数情報と、本発明において、 3周期分のコサイン波形を時間的に分割した局所分析波形を用いて求めた 3個の局所周波数情報との関係を考える。図 5の例の場合、従来技術である離散コサイン変換により求めた周波数情報は、数 11により表現される。

[0055] [数 11]

_ΛΓ 3周期分の終わり、ム n— l) kf

X r = / x„c,'

ブ _^ί7=始め " ^ks cos 2N ―

[0056] また、本発明における 3個の局所周波数情報は、数 12、数 13、数 14により表現される。

[0057] [数 12]

cos ―

[0058] [数 13] 2 — γ2周期分の終わり (2n— l)7ik_f

f ~ム" =2周期分の始め " / ^C0S ^

[0059] [数 14]

3周期分の終わり 2n— V) k _f

X ,, COS

3周期分の始め《 2N

[0060] 局所分析波形の作成方法を考えると、数 15に示すように、離散コサイン変換で求めた周波数情報は、本発明で求めた 3個の局所周波数情報の総和と等価であることがわカゝる。

[0061] [数 15]

[0062] このことから、本発明で求めた 3個の局所周波数情報には、離散コサイン変換で求めた周波数分解能をもつ周波数情報が含まれていることがわかる。すなわち、局所周波数情報を 3個合わせて考えると、細かい周波数分解能をもつ周波数情報が得られることがゎカゝる。

[0063] また、数 15より、所望の周波数分解能で求めた離散コサイン変換による周波数情報の値 (数 11)において、局所周波数情報の値 (数 12、数 13、数 14)の組み合わせが複数存在することがわかる。例えば、数 16に示す組み合わせが存在する。すなわち、 X=5となる (X¹, X², X ³)の組み合わせの一例としてとして、（X¹, X², X³) = ( f f f f f f f

1, 2, 2)が考えられる。それ以外にも (X¹, X², X³) = (2, 1, 2)などが考えられる。

f f f

[0064] [数 16]

( , = 5) = ( }+X^+ ³, =1 + 2 + 2 = 2 + 1 + 2 = 1 + 0 + 3 = 0 + 5 + 0 =10 + (-2) + (-3)) [0065] このことから、図 5 (d)に示すように 3個の局所周波数情報をひとかたまりのデータとして扱ったものは、所望の周波数分解能をもつ周波数情報を、所望の細かい時間分解能をもつ 3個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。

[0066] このように、 3個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能との両方をあた力も同時に細力べして周波数分析を行なつたかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、 3個の局所周波数情報を求めるために 3周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。

[0067] 図 6は、別の周波数分解能に基づいて周波数分析を行う例を示す図である。図 6の例では、図 6 (a)に示すように図 5の例よりも細かい周波数分解能で分析するために、図 6 (b)に示すように 4周期分のコサイン波形を分析波形として、る。

[0068] ここで、従来技術の離散コサイン変換を用いて周波数分析を行った場合、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は 4周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。そのため、被分析波形の細かい時間的な構造が表現できなくなってしまう。

[0069] そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する。図 6の例では、図 6 (c)に示すように分析波形を 2周期分のコサイン波形に分割して、 2個の局所分析波形を作成する。ここでの時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は、 2周期分のコサイン波形の時間幅であり、周波数分解能とは独立に細力べ設定している。（ただし、 2個の局所分析波形は、同一の分析波形力もそれぞれ抽出された波形である。 )

[0070] 次に、図 6 (c)に示すように 2個の局所分析波形を用いて周波数分析を行うことで、 2個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析波形との相互相関（畳み込み）を計算することで求める。

[0071] ここで、従来技術である離散コサイン変換により、 4周期分のコサイン波形である分析波形を用いて求めた周波数情報と、本発明において、 2周期分のコサイン波形に分割して求めた 2個の局所周波数情報との関係を考える。図 6の例の場合、従来技術である離散コサイン変換により求めた周波数情報は、数 17により表現される。

[0072] [数 17]

また、本発明における 2個の局所周波数情報は、数 18、数 19により表現される。

[0073] [数 18]

„ι 2周期分の終わり 2 — l) k_f

r ~ 7 ,_{Al ¾} x, _k cos ―

[0074] [数 19]

[0075] 局所分析波形の作成方法を考えると、数 20に示すように、離散コサイン変換で求めた周波数情報は、本発明で求めた 2個の局所周波数情報の総和と等価であることがわカゝる。

[0076] [数 20]

[0077] このことから、本発明で求めた 2個の局所周波数情報には、離散コサイン変換で求めた周波数分解能をもつ周波数情報が含まれていることがわかる。すなわち、局所周波数情報を 2個合わせて考えると、細かい周波数分解能をもつ周波数情報が得られることがゎカゝる。

[0078] また、数 20より、所望の周波数分解能で求めた離散コサイン変換による周波数情報の値 (数 17)において、局所周波数情報の値 (数 18、数 19)の組み合わせが複数存在することがわかる。例えば、数 21に示す組み合わせが存在する。すなわち、 X

f

= 2となる( ¹, X ²)の組み合わせの一例としてとして、（X ¹, X ²) = (0. 9, 1. 1)が

f f f f

考えられる。それ以外にも (X X ²) = (2. 5, (-0. 5) )などが考えられる。

f f

[0079] [数 21]

(X_f = 2)

2.5 + (-0.5) = 1.0 + 1.0)

[0080] このことから、図 6 (d)に示すように 2個の局所周波数情報をひとかたまりのデータとして扱ったものは、所望の周波数分解能をもつ周波数情報を、所望の細かい時間分解能をもつ 2個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。

[0081] このように、 2個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能との両方をあた力も同時に細力べして周波数分析を行なつたかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、 2個の局所周波数情報を求めるために 4周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。

[0082] 図 7は、分析波形を時間的に重ねて分割して局所分析波形を作成する例を示す図である。図 7 (a)は、この例における周波数分解能を示す図であり、図 6 (a)に示した周波数分解能と同じであるものとする。図 7の例では、図 7 (b)に示すように図 6の例と同じ 4周期分のコサイン波形を分析波形として、る。

[0083] ここで、従来技術の離散コサイン変換を用いて周波数分析を行った場合、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は 4周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。そのため、被分析波形の細かい時間的な構造が表現できなくなってしまう。

[0084] そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する。図 7の例では、図 7 (c)に示すように分析波形を時間的に重ねながら 2周期分のコサイン波形に分割して、 3個の局所分析波形を作成する。ここでの時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は、 2周期分のコサイン波形の時間幅となる（ただし、 3個の局所分析波形は、同一の分析波形カゝらそれぞれ抽出された波形である。 ) o

[0085] 次に、図 7 (c)に示すように 3個の局所分析波形を用いて周波数分析を行うことで、 3個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析波形との相互相関（畳み込み）を計算することで求める。

[0086] ここで、従来技術である離散コサイン変換により、 4周期分のコサイン波形である分析波形を用いて求めた周波数情報と、本発明において、 2周期分のコサイン波形に分割して求めた 3個の局所周波数情報との関係を考えると、 3個の局所周波数情報の総和により、離散コサイン変換で求めた周波数情報の 2倍の値が近似的に求まることがわかる。すなわち、 3個の局所周波数情報には、離散コサイン変換により細かい周波数分解能で求めた周波数情報が含まれていることがわ力る。

[0087] このことから、図 7 (d)に示すように 3個の局所周波数情報をひとかたまりのデータとして扱ったものは、局所周波数情報よりも細かい周波数分解能をもつ周波数情報を、細かい時間分解能をもつ 3個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。

[0088] このように、 3個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能と周波数分解能の両方をあた力も同時に細力べして周波数分析を行なつたかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、 3個の局所周波数情報を求めるために 4周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。

[0089] 図 8は、別の時間分解能に基づいて周波数分析を行う例を示す図である。図 8 (a) は、この例における周波数分解能を示す図であり、図 5 (a)に示した周波数分解能と同じであるものとする。図 8の例では、図 5の例よりもさらに細かい時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で周波数分析を行う。この例では、図 8 (b)に示すように図 5の例と同じ 3周期分のコサイン波形を分析波形としている。

[0090] ここで、従来技術の離散コサイン変換を用いて周波数分析を行うと、時間分解能は 3周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。そこで、図 8 の例では、図 8 (c)に示すように分析波形を 0. 5周期分のコサイン波形に分割して、 6個の局所分析波形を作成する。ここでの時間分解能は、 0. 5周期分のコサイン波形の時間幅となる。そして 6個の局所分析波形を用いて周波数分析を行うことで、 6 個の局所周波数情報を求める。

[0091] ここで、分析波形 (3周期分のコサイン波形)を用いて従来技術である離散コサイン変換で求めた周波数情報と、本発明における、 6個の局所周波数情報との関係を考えると、 6個の局所周波数情報の総和により、離散コサイン変換で求めた周波数情報が求まることがわかる。すなわち、 6個の局所周波数情報には、所定の周波数分解能で求めた離散コサイン変換で求めた周波数情報が含まれて、ることがわ力る。これより、 6個の局所周波数情報をひとかたまりのデータとして扱ったものは、局所周波数情報よりも細かい周波数分解能をもつ周波数情報を、細かい時間分解能をもつ 6個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわ力る。

[0092] そして、図 8 (d)に示すように 6個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能と周波数分解能の両方をあた力も同時に細力べして周波数分析を行なったかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、 6 個の局所周波数情報を求めるために 3周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。

[0093] 図 9は、 1周期分のコサイン波形による周波数情報と、フーリエ変換による周波数情報との関係を示した図である。図 9 (a)に示すように、分析する周波数 (fl, f2, f3,… )ごとに、分析する周波数に対応する 1周期分のコサイン波形を局所分析波形として、図 5の例と同様にして局所周波数情報を求める。なお、分析する周波数は、図 9 (c )に示すように基本周波数を flとした場合に fnで表される。 fnは、 flの n倍の周波数を示す。そして、図 9 (b)に示すように、図 5の例と同様にして、フーリエ変換における時間窓の中に入る局所周波数情報の総和を求めることで、フーリエ変換の周波数情報を作成することができる。なお、図 9の例では、図 9 (b)に示されるようにフーリエ変換における時間窓に入る局所周波数情報の数は、周波数 flに対応する局所周波数情報では 1個、周波数 f2に対応する局所周波数情報では 2個、周波数 f3に対応する局所周波数情報では 3個である。フーリエ変換では、分析する複数の周波数は直交条件を満たしており、逆フーリエ変換により、周波数情報から波形情報を容易に作成することができる。このことから、本発明における局所周波数情報から波形情報に変換できることがわかる。

[0094] 本発明の周波数分析装置を用いれば、例えば、混合音分離システムにおいて、混合音から、細か!ゝ周波数分解能でかつ細か!ゝ時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で表現された周波数ごとの局所周波数情報をひとかたまりにしたデータを用いて、高、精度で抽出した、音の局所周波数情報を抽出することで、クリアな抽出音 (抽出音の波形情報)を利用者に提供することができる。

[0095] 最後に本発明のポイントを要約すると、所定の周波数を周波数分析するときに、所望の周波数分解能に基づいて決まる分析時間幅 (分析波形の時間幅に対応）において、上記所定の周波数をもつ同一の分析波形からそれぞれ抽出された分析波形（局所分析波形に対応)を上記分析時間幅内に収まるように複数個準備して、上記複数の分析波形 (局所分析波形に対応)を用いて複数の周波数情報 (局所周波数情報に対応)を作成して、それらをひとかたまりのデータとして扱って被分析波形の周波数特徴量を分析することを特徴とするものである。

発明の効果

[0096] 以上のように、本発明によると、時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）と周波数分解能とを独立に設定すること力 Sでき、時間分解能と周波数分解能とをあた力も同時に細力べして周波数分析を行なったかのように周波数分析を行なうことができる混合音分離装置および周波数分析装置などが提供され、混合音分離、音声認識、音識別、文字認識、顔認識、虹彩認証などの幅広い分野での基本技術として利用することができ、その実用的価値は極めて高い。

図面の簡単な説明

[0097] [図 1]図 1は、従来技術であるフーリエ変換 (離散フーリエ変換)の方法を説明する図である。

[図 2]図 2は、所定の時間幅をもつ分析波形と、被分析波形を上記分析波形により周波数分析したときの周波数特性との関係を示した図である。

[図 3]図 3は、従来技術であるコサイン変換 (離散コサイン変換)を説明する図である。

[図 4]図 4は、従来技術であるウェーブレット変換を説明する図である。

[図 5]図 5は、本発明の全体構成を説明する図である。

[図 6]図 6は、別の周波数分解能に基づいて周波数分析を行なう例を示す図である。

[図 7]図 7は、分析波形を時間的に重ねて分割して局所分析波形を作成する例を示す図である。

[図 8]図 8は、別の時間分解能に基づいて周波数分析を行う例を示す図である。

[図 9]図 9は、 1周期分のコサイン波形による周波数情報と、フーリエ変換による周波数情報との関係を示した図である。

[図 10]図 10は、本発明の実施の形態における周波数分析装置の全体構成を示すブロック図である。

[図 11]図 11は、混合音分離システム 100の動作手順を示すフローチャートである。

[図 12]図 12は、混合音 S 100の一例を示した図である。

圆 13]図 13は、分析波形と局所周波数情報を示した図である。

[図 14]図 14は、実験により求めた局所周波数情報を示した図である。

圆 15]図 15は、混合音 S100に含まれる抽出音の局所周波数情報を抽出する方法の一例を示した図である。

[図 16]図 16は、周波数特徴量の抽出にお!、て従来の方法と本発明の方法との構成を比較する図である。

[図 17]図 17は、局所周波数情報の空間のイメージを示した図である。

圆 18]図 18は、混合音 S100に含まれていた抽出音の局所周波数情報の一例を示した図である。

[図 19]図 19は、本発明の実施の形態における周波数分析装置の全体構成の他の一例を示すブロック図である。

[図 20]図 20は、局所周波数情報作成部により作成される局所周波数情報 DBについて説明するための図である。

[図 21]図 21は、局所周波数情報作成部により作成される局所周波数情報 DBについて説明するための図である。

[図 22]図 22は、局所周波数情報 DBの一例を示す図である。

[図 23]図 23は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示す図である。

[図 24]図 24は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示す図である。

[図 25]図 25は、局所周波数情報作成部により作成される局所周波数情報 DBについて説明するための図である。

[図 26]図 26は、局所周波数情報 DBの一例を示す図である。

[図 27]図 27は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示す図である。 [図 28]図 28は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示す図である。

符号の説明

[0098] 100, 100 A 混合音分離システム

101 マイクロホン

102 周波数分析装置

103, 103A 分析波形時間幅決定部

104 分析波形分割部

105, 105A 局所周波数情報作成部

106, 106A 被分析波形周波数特徴量抽出部

107 音変換部

108 スピーカ

1000 周波数情報作成装置

1001 周波数特徴量分析装置

1002 周波数分解能決定部

S100 混合音

S101 分析波形

S102 局所分析波形

S103 局所周波数情報

S104 周波数特徴量 (抽出音のフーリエ係数）

S105 抽出音

S1000 局所周波数情報 DB

発明を実施するための最良の形態

[0099] 以下、本発明の実施の形態について、図面を参照しながら説明する。

[0100] 図 10は、本発明の実施の形態における周波数分析装置の全体構成を示すブロック図である。ここでは、本発明に係る周波数分析装置が混合音分離システムに組み込まれた例が示されている。本実施の形態では、 3人の話者の音声から構成される混合音を周波数分析することにより、混合音から 1人の話者の音声を分離する場合を例にして説明する。

[0101] 混合音分離システム 100は、複数の話者の音声が混合された混合音から 1人の話者の音声を抽出するシステムであり、マイクロホン 101と、周波数分析装置 102と、音変換部 107と、スピーカ 108とを備える。周波数分析装置 102は、混合音に含まれる周波数成分を分析し、周波数特徴量を抽出する処理装置であり、分析波形時間幅決定部 103と、分析波形分割部 104と、局所周波数情報作成部 105と、被分析波形周波数特徴量抽出部 106とを備える。

[0102] マイクロホン 101は、混合音 S100を取り込み局所周波数情報作成部 105に出力する。

[0103] 分析波形時間幅決定部 103は、所定の周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定する。

[0104] 分析波形分割部 104は、所定の時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）に基づいて、分析波形時間幅決定部

103が作成した分析波形 S101を、時間的に重なることを許して分割し、複数の局所分析波形 S 102を作成する。

[0105] 局所周波数情報作成部 105は、混合音 S100と局所分析波形 S102との相互相関に基づいて、上記所定の時間分解能で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む局所分析波形 S102に対応した複数の局所周波数情報 S103を求める。

[0106] 被分析波形周波数特徴量抽出部 106は、上記複数の局所周波数情報 S103をひとかたまりのデータとして用いることで、上記周波数分解能で、混合音 S100に含まれる抽出音の局所周波数情報を抽出して、抽出音の局所周波数情報を用いて抽出音のフーリエ係数 S104を作成することで、混合音 S100に含まれる周波数特徴量の 1 つである抽出音のフーリエ係数 S 104を抽出する。

[0107] 音変換部 107は、抽出音のフーリエ係数 S104を用いて抽出音 (抽出音の波形) S 105を作成する。スピーカ 108は、抽出音 S105を利用者へ出力する。

[0108] 次に、以上のように構成された混合音分離システム 100の動作について説明する。

[0109] 図 11は、混合音分離システム 100の動作手順を示すフローチャートである。 [0110] まず、マイクロホン 101を用いて、 3人の話者の音声力も構成される混合音 S 100を周波数分析装置 102の局所周波数情報作成部 105に取り込む（図 11のステップ 20 0)。図 12に混合音 S 100の一例を示す。図 12 (a)は、混合音 S 100の波形であり、図 12 (b)は、従来技術であるフーリエ変換により求めた混合音 S 100のスぺクトロダラムである。図 12 (c)に示すように、音声は、基本波形の繰り返しにより表現することができる。また、基本波形の振幅は全ての時間に対して大きいわけではなくゼロに近い時間領域が存在する。そのため、時間分解能を細カゝくして分析すると、混合音の中の 3人の話者の音声の基本波形の特徴を分析することができる。ちなみに、図 12 (a) の混合音の波形では、時間分解能が粗い表示になっているため、 3人の音声の基本波形の特徴を見ることは困難である。このことは、時間分解能を細力べすることは混合音を分離するのに重要であることを示している。図 12 (b)のフーリエ変換によるスぺクトログラムでは、フーリエ変換時に時間分解能と周波数分解能との両方の分解能を同時に細力べすることができないため、混合音の中の 3人の話者の音声のスペクトル形状の特徴を分離して見ることは困難である。フーリエ変換では、周波数分解能を細かくすることで 3人の音声の周波数特徴であるホルマントの時間平均を分析できるようになるが、逆に時間分解能が粗くなるため、微小時間領域でのホルマントの値が分析できない。そのため、微小な時間 ·周波数領域では重ならない混合音であっても抽出したい音を分離することは困難になってしまう。

[0111] 次に、分析波形時間幅決定部 103は、所定の周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定して分析波形 S 101を作成する（図 11 のステップ 201)。図 13に示す例では、分析波形 S101の時間幅を、基本周波数お力 ^周期分入る時間幅 (フーリエ変換における時間窓）とする。図 13 (a)および図 13 ( b)は、コサイン波形による周波数分析を説明するための図であり、図 13 (c)および図 13 (d)は、サイン波形による周波数分析を説明するための図である。また、図 13 (a) および図 13 (c)は、上述の分析波形を有する分析波形を示しており、図 13 (b)および図 13 (d)は、図 13 (a)および図 13 (c)に示した分析波形にそれぞれ対応する局所周波数情報を示している。

[0112] 図 13 (a)および図 13 (c)に示す分析波形は、実線と破線との波形を両方合わせた波形である（実線だけの波形は 1つの局所分析波形を表す)。ここでは、分析する全ての周波数に対して同じ時間幅の分析波形を用いる。ただし、分析する周波数の大きさが異なるので、分析する周波数により分析波形に含まれる周期の数は異なる。具体的には、図 13 (a)および図 13 (c)に示すように、分析する周波数が基本周波数 fl の分析波形は 1周期分のコサイン波形およびサイン波形力構成され、分析する周波数が基本周波数 flの 2倍の f2の分析波形は 2周期分のコサイン波形およびサイン波形から構成され、分析する周波数が基本波形 flの 3倍の f3の分析波形は 3周期分のコサイン波形およびサイン波形から構成される。局所分析波形に分割する前の分析波形の周波数分解能は、図 9 (c)に示したものと同様であり、分析する周波数 fl、 f 2、 f 3の周波数特性が直交するような細力、周波数分解能となって、る。

[0113] なお、分析波形の時間幅を決めることは、短時間におけるフーリエ変換での分析フレーム幅を決定する事と等価である。また、短時間におけるフーリエ変換において被分析波形に窓関数を力けることがあるが、この例の場合では、被分析波形に分析波形と同じ時間幅の矩形窓を力 4ナたことと等価である。なお、被分析波形に、分析対象区間 (分析波形が存在する時間区間)ではゼロでない値をもつ窓関数を力けて周波数分析を行ってもよい。

[0114] なお、周波数分析装置 102は、周波数分解能入力受付部をさらに備えることにより、周波数分解能を被分析波形 S 100の性質やアプリケーションの仕様に基づいて決定することができる。このような周波数分解能は外部より入力されるようにしてもょ、。例えば、突発音は周波数分解能を粗くしても（同じ時間分解能ではひとかたまりにする局所周波数情報の数が少なくなる）特徴量を分析することは可能であるが、楽音は周波数分解能を細力べして（同じ時間分解能ではひとかたまりにする局所周波数情報の数が多くなる）特徴量を分析する必要がある。ひとかたまりにするデータ数により特徴量を抽出するときの計算量が異なるため、入力された被分析波形の性質に応じて分析する周波数分解能を制御することで、計算コストを削減することができる。

[0115] 次に、分析波形分割部 104は、所定の時間分解能に基づいて、分析波形時間幅決定部 103が作成した分析波形 S101を、時間的に重なることを許して分割して複数の局所分析波形 S102を作成する（図 11のステップ 202)。図 13に示す例では、分析する周波数のそれぞれに対して、 1周期分のコサイン波形およびサイン波形に分析波形 S101 (実線と破線を両方合わせた波形)を分割して、局所分析波形 S102 ( 実線の波形は 1つの局所分析波形を表す)を作成する。具体的には、図 13 (a)および図 13 (c)に示すように、分析する周波数が基本周波数 flの局所分析波形は、分析波形そのものであり、分析する周波数が基本周波数 flの 2倍の f2の局所分析波形は、 f2の周波数をもつ 1周期分のコサイン波形およびサイン波形力構成される 2個の局所分析波形から構成され、分析する周波数が基本周波数 flの 3倍の f3の局所分析波形は、 f 3の周波数をもつ 1周期分のコサイン波形およびサイン波形力構成される 3個の局所分析波形から構成される。分析する周波数ごとに見れば、図 5 (c) 示した局所分析波形と同様なものとなる。このときの時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）は、分析する周波数の分析波形の 1周期分の時間幅となる。これより、時間分解能は周波数分解能と独立に設定できていることがわかる。なお、複数の局所分析波形は、同一の分析波形力もそれぞれ抽出された波形である。この例では、分析波形 S101を時間的に重なることなしに分割した例を示した。なお、図 6、図 7、図 8に示すように局所分析波形を作成してちょい。

[0116] なお、周波数分析装置 102は、時空間分解能入力受付部をさらに備えることにより、時間分解能を被分析波形 S 100の性質やアプリケーションの仕様に基づいて決定することができる。このような時間分解能は外部より入力されるようにしてもよい。例えば、突発音は時間分解能を細かくして分析する必要がある。突発音、音声、楽音などが交互に現れる混合音を分析する場合は、入力された被分析波形に基づ!ヽて時間分解能を制御することで高い精度での分析が可能となり、また、局所周波数情報を記憶するメモリ容量も小さくすることができる（細かい時間分解能を必要としないときに時間分解能を粗くすることで記憶する局所周波数情報の数を減らすことができる)。

[0117] 次に、局所周波数情報作成部 105は、混合音 S100と局所分析波形 S102との相互相関 (畳み込み）に基づいて、上記所定の時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む上記局所分析波形 S102に対応した複数の局所周波数情報 S 103を求める（図 11のステップ 203)。ここでは、フーリエ変換で用いる分析方法にぉヽて、分析波形を局所分析波形に変更することで局所周波数情報を求める（数 11、数 12、数 13、数 14を参照)。図 13の例に示すように、分析する周波数が基本周波数その場合には、 1個の局所周波数情報が、分析する周波数が基本周波数の 2倍の f2の場合には、 2個の局所周波数情報が、分析する周波数が基本周波数の 3倍の f3の場合には、 3個の局所周波数情報力コサイン波形およびサイン波形の分析のそれぞれにおいて求まる（図 5も参照)。コサイン波形およびサイン波形の 2種類の周波数分析で求まる局所周波数情報を用いることにより、振幅スぺクトルおよび位相スペクトルを求めることができる。すなわち、この例では、局所周波数情報は、振幅スペクトルと位相スペクトルとの両方を含む周波数情報である。

[0118] 図 14は、 16KHzでサンプリングされた混合音を、図 14 (a)に示すように図 5の例と同じ 1周期分のコサイン波形を局所分析波形として用いて、図 5の例とは異なり、 1サンプリングポイントごとに時間シフトしながら全てのサンプリングポイントに対して局所周波数情報を求めたものである。図 14 (b)は、分析する周波数が ΙΚΗζである場合の、全てのサンプリングポイントに対する局所周波数情報を時系列に並べたグラフであり、横軸が時間、縦軸がパワーである。図 14 (b)には、日本語を発声したときのダラフが 3つ示されており、上から、女性の日本語の「え」の発声における局所周波数情報、男性の日本語の「ん」の発声における局所周波数情報、それらの混合音における局所周波数情報を示して、る。

[0119] 図 14 (c)は、分析する周波数 2KHzである場合の、全てのサンプリングポイントに局所周波数情報を時系列に並べたグラフであり、図 14 (b)に示したグラフと異なる点は、分析する周波数が異なるのみである。

[0120] 分析する周波数 (1ΚΗζ、2ΚΗζ)の 1周期分の時間間隔での局所周波数情報を抽出して、ひとかたまりのデータとすると、図 5の例と同様な局所周波数情報が得られる。混合音を分離する場合は時間分解能と周波数分解能の両方を細かくする必要がある。この実験結果では、時間分解能を細力べしているため、混合音の中の女性と男性との音声の微小時間での構造を分離して見ることができる。また、後述するように、複数の局所周波数情報をひとかたまりのデータとして用いることであた力も周波数分解能を細力べしたかのごとくすることができるので、微小な時間'周波数領域では重ならな、混合音を高、精度で分離することができる。

[0121] 次に、被分析波形周波数特徴量抽出部 106は、上記複数の局所周波数情報 S10 3をひとかたまりのデータとして用いることで、上記周波数分解能で、混合音 S100に含まれる抽出音の局所周波数情報を抽出して、抽出音の局所周波数情報を用いて抽出音のフーリエ係数 S104を作成することで、混合音 S100に含まれる周波数特徴量の 1つである抽出音のフーリエ係数 S104を抽出する（図 11のステップ 204)。図 1 5に、混合音 S100に含まれる抽出音の局所周波数情報を抽出する方法の一例を示す。図 15 (a)は、局所分析波形 S102の一例を示した図である。図 15 (b)は、基本周波数 f 1、基本周波数 f 1の 2倍周波数 f 2および基本周波数 f 1の 3倍周波数 f 3の各々に対する局所周波数情報を示した図である。図 15 (c)は、抽出する音のひとかたまりの局所周波数情報のパターンを示した図であり、ここでは、女性の音声に対する局所周波数情報のパターンが 2つ示されて、る。

[0122] 図 15の例では、図 15 (c)に示すように、あらかじめ、抽出する音のひとかたまりの局所周波数情報 (フーリエ変換の時間窓の中にある局所周波数情報をまとめたもの）を記憶しておいて、図 15 (b)に示されるような混合音 S 100から作成した局所周波数情報 S103と、図 15 (c)に示されるような記憶された抽出音のひとかたまりの局所周波数情報とを比較することにより、混合音 S100に含まれる、抽出音の局所周波数情報を抽出する。図 15の例では、上述したように女性の音声パターンが記憶されている。この例では、混合音 S100のひとかたまりの局所周波数情報 S103と、記憶されたひとかたまりの局所周波数情報 (女性の音声パターン)とを比較して、誤差距離 (類似度の逆数)が最小である記憶された音声パターンを選択して、誤差距離が予め定められたしきい値以下であれば、混合音 S100の局所周波数情報を抽出する。また、誤差距離がしき!/、値よりも大きければ、記憶された誤差距離が最小の音声パターンを用いて、抽出したい女性の局所周波数情報 (例えば、後述する図 18の Zで示したもの）を作成してもよ!ヽ。具体的には数 22を用いて誤差距離を計算する。

[0123] [数 22] Ε(Χ,Α) = {χ) - A_f ^] _ly + ( ₂ - ₂)² + - ₂)

+ 、 — /3)— +(Α 3— /3)— ⁺ — /3ノ— ここで、 Xは混合音 SIOOのひとかたまりの局所周波数情報 S103であり、 Αは記憶されたひとかたまりの局所周波数情報 (女性の音声パターン)である。

[0124] 数 22の

[0125] [数 23]

- )² + ^χ2η - ^Ah)² + (^χ% - ^Α%) の部分を見ると、

[0126] [数 24]

( ₃- 4²

[0127] [数 25]

[0128] [数 26]

(^₃- ₃)² の全ての項が小さくならな!/ヽと誤差距離は小さくならな!/、。

[0129] ここで、図 16を用いて、従来の方法と本発明の方法との構成を比較する。図 16 (a) に示すように、従来の方法では、 1つ 1つの局所周波数情報に対して誤差距離を計算して最小のパターンを選択するのに対して、本発明の方法では、図 16(b)に示すように、ひとかたまりの局所周波数情報を 1つのパターンとして誤差距離を計算して最小のパターンを選択している。このため、 1つ 1つの局所周波数情報の誤差距離を小さくすると同時に、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での周波数情報である

[0130] [数 27]

と

[0131] [数 28]

^Λ 3 = 3 + + との誤差距離の値も小さいパターンを選択することになる。一方、図 16 (a)に示す従来の方法では、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での誤差距離は考慮されな!ヽ。

[0132] 図 17は、局所周波数情報の空間のイメージを示した図である。図 17の例では、所望の周波数分解能での周波数情報である数 27と数 28とは、平面の各軸との切片の値を示し、ひとかたまりの局所周波数情報である

[0133] [数 29]

[数 30] ,₃ ,₃ ,₃) は、それぞれ、数 27により表される平面と数 28により表される平面における点を示している。本発明では、所望の周波数分解能をもつ平面同士の距離（図 17における切片間の距離)を測るのと同時に、所望の周波数分解能をもつ平面において、微小な時間区間での周波数の変化を表現した平面上での点同士の距離 (数 29で示される点と数 30で示される点との間の距離)をも考慮して、周波数特徴量を分析する。従来の方法では、平面上での点同士の距離を測ると!、う概念はな!/、。

[0135] なお、抽出したい局所周波数情報の作成方法として、誤差距離が最小であった図 15 (c)に示されるような記憶されたパターンをつなぎ合わせることで、混合音を利用せずに抽出した、女性の局所周波数情報を作成してもよ!、。

[0136] なお、図 15の例では、全ての分析する周波数のひとかたまりの局所周波数情報をまとめてパターンを作成したが、分析する周波数ごとに女性の音声パターンを記憶しておいて、分析する周波数ごとにひとかたまりの局所周波数情報を用いて誤差距離を計算してもよい。

[0137] なお、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での周波数情報を別途計算しておいて、ひとかたまりの局所周波数情報と合わせて、計算した所望の周波数分解能での周波数情報を陽に用いて誤差距離を計算してもよい。

[0138] なお、誤差距離を計算する評価式として数 22の変わりに、ひとかたまりの局所周波数情報の各値の比率を用いて類似度を計算してもよ、。

[0139] 次に、図 18に示すように、取り出した抽出音の局所周波数情報を用いて抽出音のフーリエ係数 S 104を求める。図 18 (a)には、混合音 S100に含まれていた抽出音の局所周波数情報の一例が示されている。この例では、フーリエ変換での時間窓の中にある局所周波数情報（図 18の Z)の総和を求めることで図 18 (b)に示すようなフーリェ係数（図 18の Y)が求まる。

[0140] 次に、音変換部 107は、抽出音のフーリエ係数 S104を用いて抽出音 (抽出音の波形) S105を作成する（図 11のステップ 205)。この例では、逆フーリエ変換により抽出音 S 105を作成する。

[0141] 最後に、スピーカ 108は、抽出音 S105を利用者へ出力する（図 11のステップ 206

) o

[0142] 以上説明したように、本発明の実施の形態によれば、時間分解能と周波数分解能を独立に設定することができ、複数の周波数分解能 (複数の時間分解能)でそれぞれ周波数分析された複数の局所周波数情報のかたまり同士を比較することにより、あた力も時間分解能と周波数分解能を同時に細力べして周波数分析した力のような結果を得ることができる。このため、混合音の中から高い精度で抽出したい音を取り出すことができる。

[0143] なお、本実施の形態では、周波数分析装置を、混合音分離システムに組み込んだ力音声認識システム、音識別システム、文字認識システム、顔認識システム、虹彩認証システムに組み込んでもよ!/、。

[0144] なお、本実施の形態では、時間波形を被分析波形としたが、画像処理を行う場合などは、空間波形を被分析波形とするため、「時間分解能」は「空間分解能」に対応することになる。本明細書および特許請求の範囲において「時間分解能」と「空間分解能」とを併せて、「時空間分解能」と呼ぶこととする。「空間分解能」とは、被分析波形と分析波形との相互相関 (畳み込み)を求めるときに平均化する空間領域の大きさのことである。

[0145] なお、本実施の形態に係る周波数分析装置 102を以下のように構成することもできる。

[0146] 図 19に示すように、周波数分析装置 102Aは、局所周波数情報を作成してデータベース化 (DB化)することで局所周波数情報 DBS1000を作成する周波数情報作成装置 1000と、周波数情報作成装置 1000が作成した局所周波数情報 DBS 1000を用いて周波数特徴量 S104を分析する周波数特徴量分析装置 1001と、の 2つの装置力構成することができる。

[0147] 周波数情報作成装置 1000において、分析波形時間幅決定部 103Aは、周波数特徴量分析装置 1001が周波数特徴量 S 104を分析するときに用いるであろう最も細かい周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定して分析波形 S101を作成する。すなわち、分析波形時間幅決定部 103Aが決定した分析波形の時間幅により、周波数特徴量分析装置 1001が周波数特徴量 S104を分析できる周波数分解能の上限が決定される。

[0148] 分析波形分割部 104の動作は図 10のものと同様であるため説明を省略する。 [0149] 次に、局所周波数情報作成部 105Aは、マイクロホン 101から取り込まれた混合音 S 100と局所分析波形 S 102との相互相関（畳み込み）に基づいて、所定の時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む上記局所分析波形 S102に対応した複数の局所周波数情報 S103を求めて、少なくとも、（1)分析した周波数、（2)局所分析波形の形状に関する情報、（3)局所周波数情報 S103および対応する局所周波数情報を求めた被分析波形の時刻、とから構成される局所周波数情報 DBS 1000を作成して記憶する。

[0150] 図 20 (a)に、局所周波数情報 DBS 1000の一例を示す。この例では、局所周波数情報 DBS1000は、（1)分析した周波数は ΙΚΗζであり、（2)局所分析波形に関する情報として、局所分析波形同士の重なりはなぐ 5周期分のコサイン波形力構成される分析波形において、時間分解能が lms (分析した周波数 ΙΚΗζの 1周期分の長さ、すなわち分析波形の 1周期分の長さ)であるという情報と、（3) 5個の局所周波数情報（5個の局所分析波形における離散コサイン変換係数と同等の値)をひとかたまりにしたデータおよび対応する局所周波数情報を求めた被分析波形の時刻、とから構成されている。

[0151] 図 20 (b)および図 20 (c)に、説明のためのイメージ図を合わせて記載している。図 20 (b)に示すイメージ図により、局所分析波形同士の重なりがないことがわかる。また、図 20 (c)より 5個でひとかたまりの局所周波数情報のかたまりは、被分析波形を時間的にシフトしながら複数求められていることがわかる。この時間シフトの間隔（0.3ms )は、ひとかたまりにした 5個の局所周波数情報を求めるために用いた 5個の局所分析波形の時間間隔（lms)とは独立に設定できる。

[0152] 図 20の例では、 5個の局所周波数情報をひとかたまりにしたときの周波数分解能が、周波数特徴量分析装置 1001が分析できる最も細かい周波数分解能となる。

[0153] また、図 21 (a)に、局所周波数情報 DBS 1000の別の一例を示す。この例では、複数の時間分解能をもつ局所分析波形により求められた局所周波数情報 DBの一例を示しており、（1)分析した周波数は 2KHzであり、（2)局所分析波形に関する情報として、局所分析波形同士の重なりはなぐ時間分解能は、 4周期のコサイン波形力も構成される分析波形において、分析波形の 1周期目に対応する局所分析波形では 0.5 ms、分析波形の 2周期目に対応する局所分析波形では 0.5ms、分析波形の 3周期目〜4周期目に対応する局所分析波形では 1.0msであるという情報と、 (3) 3個の局所周波数情報 (3個の局所分析波形における離散コサイン変換係数と同等の値)をひと力たまりにしたデータおよび対応する局所周波数情報を求めた被分析波形の時刻、とカゝら構成されている。

[0154] 図 21 (b)および図 21 (c)に、説明のためにイメージ図を合わせて記載している。図 21 (b)に示すイメージ図により、局所分析波形同士の重なりがないことがわかる。また、図 21 (c)より 3個でひとかたまりの局所周波数情報のかたまりは、被分析波形を時間的にシフトしながら複数求められていることがわかる。この時間シフトの間隔（0.3ms )は、ひとかたまりにした 3個の局所周波数情報を求めるために用いた 3個の局所分析波形の時間間隔 (0.5ms、 0.5ms, 1.0ms)とは独立に設定できる。

[0155] この例では、 3個の局所周波数情報をひとかたまりにしたときの周波数分解能が、周波数特徴量分析装置 1001が分析できる最も細カゝぃ周波数分解能となる。

[0156] また、図 22に、局所周波数情報 DBS 1000の別の一例を示す。この例では、局所周波数情報とは別に、ひとかたまりにする複数の局所周波数情報の値の総和である、上述の周波数情報 (数 11、数 12、数 13、数 14、数 15を参照)も合わせてデータべース化してある。

[0157] 以上説明したように、局所周波数情報 DBS 1000が作成され記憶される。

[0158] 図 19に示されるように周波数特徴量分析装置 1001において、被分析波形周波数特徴量抽出部 106Aは、周波数分解能決定部 1002を備える。被分析波形周波数特徴量抽出部 106Aは、局所周波数情報 DBS1000を入力して、周波数分解能決定部 1002が決定した周波数分解能に基づいて、局所周波数情報 DBS1000が保持する（3)複数の局所周波数および対応する局所周波数情報を求めた被分析波形の時刻、の中から、ひとかたまりのデータとして扱う局所周波数情報の数を決定する。

[0159] なお、局所周波数情報 DBS 1000は、通信路を用いて受信してもよいし、メモリ力ードなどの記録媒体により取得してもよ、。

[0160] なお、局所周波数情報 DBS1000が保持する全ての局所周波数情報を用いる場合には、周波数分解能決定部 1002はなくてもよい。

[0161] 図 23に、局所周波数情報 DBS1000を用いた周波数特徴量の分析方法の一例を示す。この例では、図中丸枠で囲った全て（5個）の局所周波数情報をひとかたまりのデータとして、周波数特徴量を分析する。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図 10の被分析波形周波数特徴量抽出部 106 と同様な方法で行うため説明を省略する。なお、この例の場合は、周波数分解能決定部 1002はなくてもよい。

[0162] また、図 24に、局所周波数情報 DBS1000を用いた周波数特徴量の分析方法の別の一例を示す。この例では、局所周波数情報 DBS1000が保持した、分析する周波数 ΙΚΗζと時間分解能 lmsとから、ひとかたまりにする局所周波数情報の数と周波数分解能との関係を計算して、周波数分解能決定部 1002が決定した周波数分解能に基づいて、図中丸枠で囲った 3個の局所周波数情報をひとかたまりのデータとして周波数特徴量を分析する。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図 10の被分析波形周波数特徴量抽出部 106と同様な方法で行うため説明を省略する。図 24の例のように、局所周波数情報 DBが保持した一部の局所周波数情報を用いることで、所望の周波数分解能で、周波数特徴量を分析することができる。

[0163] なお、図 24の例では、時刻 0.0ms、時刻 0.3ms、時刻 0.6msと時間シフトの間隔を 0.3 msとした力時間シフトの間隔を 0.6msとして、時刻 0.0ms、時刻 0.6ms、時刻 1.2msのひとかたまりの局所周波数情報を用いて周波数特徴量を分析してもよい。このときは、局所周波数情報 DBS1000の一部を用いて周波数特徴量を分析することになる。

[0164] また、図 22に示した局所周波数情報 DBS 1000を用いて周波数特徴量の分析を行う場合には、図 10の被分析波形周波数特徴量抽出部 106の動作において、数 22 の誤差関数に換えて、以下に示す数 31により、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での周波数情報である、図 22の局所周波数情報 DBS1000の「周波数情報」を用いて誤差距離を計算する。

[0165] [数 31] E(X, A) = 、― , )² + f_f2 - A_f ^] ₂ )² + {X ₂ - Aj₂Y 十 3 A) A

^L/3 ,3

+ wx (X_f] _ Aハ) ² ₊^X_f2 -A_f2)² + _i3 -A )²) ここで、

[0166] [数 32] x_fl,x_f2,x_f3 は局所周波数情報 DBS 1000の「周波数情報」であり、

[0167] [数 33]

·> ^fl 5 3 は記憶された、上記「周波数情報」（女性の音声パターン）に対応するものであり、 [0168] [数 34]

W は重み係数である。

[0169] なお、図 23、図 24の例でも、局所周波数情報の値の総和を求めて「周波数情報」を計算することで、数 31の誤差関数により誤差距離を計算してもよい。

[0170] 音変換部 107、スピーカ 108の動作は図 10のものと同様であるため説明を省略する。

[0171] 最後に、利用者はスピーカ 108を通じて抽出音 S105を聴くことができる。

[0172] ここで、局所周波数情報作成部 105A、局所周波数情報 DBS 1000、被分析周波数特徴量抽出部 106A、の別の一例を示す。

[0173] 局所周波数情報作成部 105Aは、混合音 S100と局所分析波形 S102との相互相関 (畳み込み）に基づいて、所定の時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ）で、振幅スペクトルおよび位相スぺタトルの少なくとも一方を含む上記局所分析波形に対応した複数の局所周波数情報 S1 03を求めて、（1)分析した周波数、（2)局所分析波形の形状に関する情報、（3)局所周波数情報 S103および対応する局所周波数情報を求めた被分析波形の時刻、とから構成される局所周波数情報 DBS1000を作成する。

[0174] 図 25 (a)に、局所周波数情報 DBS 1000の一例を示す。この例では、図 20の局所周波数情報 DBの例とは異なり、 (3)局所周波数情報 S 103および対応する局所周波数情報を求めた被分析波形の時刻、の表現が、局所周波数情報を時刻方向に並ベたものになっている。すなわち、時刻 1.0msにおける 3個の局所周波数情報とは、時刻 1.0msの局所周波数情報、時刻 2.0msの局所周波数情報、時刻 3.0msの局所周波数情報であり、時刻 2.0msにおける 5個の局所周波数情報とは、時刻 2.0msの局所周波数情報、時刻 3.0msの局所周波数情報、時刻 4.0msの局所周波数情報、時刻 5. 0msの局所周波数情報、時刻 6.0msの局所周波数情報である。このような表現ができる理由は、時間分解能力分析する周波数である IKHzの 1周期分の 1.0msであり、整数個のひとかたまりの局所周波数情報のかたまりを、被分析波形に対して時間的にシフトする間隔の 1.0msと同じであるからである（図 25 (b)および図 25 (c)を参照）。すなわち、時間シフトした 1周期目の局所周波数情報により、前の時刻における 2周期目以降の局所周波数情報が表現できるからである。なお、（1)分析した周波数、 (2) 局所分析波形の形状に関する情報、は図 20の局所周波数情報 DBの例と同様である。

[0175] 図 26に、局所周波数情報 DB1000の別の一例を示す。この例では、図 25の局所周波数情報 DBの例とは異なり、複数の分析した周波数に対して、（1)分析した周波数、（2)局所分析波形の形状に関する情報、（3)局所周波数情報 S103および対応する局所周波数情報を求めた被分析波形の時刻、をそれぞれデータベース化している。このように、図 20、図 21、図 22の例でも、複数の分析した周波数に対して、局所周波数情報をデータベース化してもょ、。

[0176] 以上説明したように、局所周波数情報 DBS 1000が作成され記憶される。

[0177] 被分析波形周波数特徴量抽出部 106Aは、周波数分解能決定部 1002を備える。

被分析波形周波数特徴量抽出部 106Aは、局所周波数情報 DBS1000を入力して、周波数分解能決定部 1002が決定した周波数分解能に基づいて、局所周波数情報 DBS1000が保持する（3)複数の局所周波数および対応する局所周波数情報を求めた被分析波形の時刻、の中から、ひとかたまりのデータとして扱う局所周波数情報の数を決定する。

[0178] 図 27に、局所周波数情報 DBS1000を用いた周波数特徴量の分析方法の一例を示す。この例では、局所周波数情報 DBが保持した、分析する周波数 ΙΚΗζと時間分解能 lmsとから、ひとかたまりにする局所周波数情報の数と周波数分解能との関係を計算して、周波数分解能決定部 1002が決定した周波数分解能に基づいて、 3個の局所周波数情報をひとかたまりのデータとして周波数特徴量を分析する。この例での 3個の局所周波数情報とは、時刻 0.0msにおいては、図中で実線丸枠で囲った時刻 0 .Omsの局所周波数情報、時刻 1.0msの局所周波数情報および時刻 2.0msの局所周波数情報であり、時刻 1.0msにおいては、図中で破線丸枠で囲った時刻 1.0msの局所周波数情報、時刻 2.0msの局所周波数情報および時刻 3.0msの局所周波数情報であり、時刻 2.0msにおいては、図中で破線丸枠で囲った時刻 2.0msの局所周波数情報、時刻 3.0msの局所周波数情報および時刻 4.0msの局所周波数情報である。ここでは、時間シフトの間隔 1.0msごとに、ひとかたまりの局所周波数情報を求めている。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図 10の被分析波形周波数特徴量抽出部 106と同様な方法で行うため説明を省略する

[0179] なお、 5個の局所周波数情報をひとかたまりのデータとしたい場合には、 5個の連続した時刻の局所周波数情報をひとかたまりにすればよぐ 10個の局所周波数情報をひとかたまりのデータとしたい場合には、 10個の連続した時刻の局所周波数情報をひとかたまりにすればよい。ひとかたまりにする局所周波数情報の数の自由度としては、図 24の例よりも自由度が高い。 [0180] 図 28に、局所周波数情報 DBS1000を用いた周波数特徴量の別の分析方法の一例を示す。この例では、ひとかたまりの局所周波数情報を、時間シフトの間隔 3.0msごとに求めている（図中の実線丸枠および破線丸枠)。この時間シフトの間隔は 5.0ms でも 8.0msでもよい。このように、時間シフトの間隔を自由に設定することができる。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図 10 の被分析波形周波数特徴量抽出部 106と同様な方法で行うため説明を省略する。

[0181] 以上説明したように、周波数特徴量 S104が抽出される。

[0182] なお、周波数特徴量分析装置 1001は、周波数分解能入力受付部をさらに備えることにより、周波数分解能をアプリケーションの仕様などに基づいて決定することができる。このような周波数分解能は、外部より入力されるようにしてもよい。

産業上の利用可能性

[0183] 本発明は、混合音分離システム、音声認識システム、音識別システム、文字認識システム、顔認識システム、虹彩認証システム等のシステムに利用することができる。

Claims

請求の範囲

[1] 複数の音から構成される混合音中より特定の音を分離する混合音分離装置であつて、

所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、

前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間のパターンマッチングを行な、、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出手段と、

前記特定音周波数特徴量抽出手段で抽出された前記複数の局所周波数情報の組に基づ 1、て、前記特定の音の信号を作成する音信号作成手段とを備える

ことを特徴とする混合音分離装置。

[2] 前記特定音周波数特徴量抽出手段は、前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間の距離を算出し、当該距離が所定の閾値以下の場合に、前記複数の局所周波数情報の組を抽出することを特徴とする請求項 1に記載の混合音分離装置。

[3] 前記特定音周波数特徴量抽出手段は、前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間の類似度を算出し、当該類似度が所定の閾値以上の場合に、前記複数の局所周波数情報の組を抽出する

ことを特徴とする請求項 1に記載の混合音分離装置。

[4] さらに、前記所定の周波数分解能に基づいて、前記分析波形の時間幅を決定する分析波形時間幅決定手段を備える

ことを特徴とする請求項 1に記載の混合音分離装置。

[5] 前記分析波形は、コサイン波形またはサイン波形を含み、前記分析波形時間幅決定手段は、前記所定の周波数分解能に基づいて、前記分析波形が整数周期分のコサイン波形または整数周期分のサイン波形の分析波形を含むように前記分析波形の時間幅を決定する

ことを特徴とする請求項 4に記載の混合音分離装置。

[6] 前記整数周期は、 1周期である

ことを特徴とする請求項 5に記載の混合音分離装置。

[7] さらに、周波数分解能の入力を受付ける周波数分解能入力受付手段を備え、前記分析波形時間幅決定手段は、入力された前記周波数分解能に基づいて、前記分析波形の時間幅を決定する

ことを特徴とする請求項 4に記載の混合音分離装置。

[8] さらに、前記所定の時空間分解能に基づいて、前記分析波形を、時間的に重なることを許して分割して、前記複数の局所分析波形を作成する分析波形分割手段を備える

ことを特徴とする請求項 1に記載の混合音分離装置。

[9] 前記分析波形分割手段は、複数の時空間分解能を有するように前記分析波形を分割して、前記複数の局所分析波形を作成する

ことを特徴とする請求項 8に記載の混合音分離装置。

[10] さらに、時空間分解能の入力を受付ける時空間分解能入力受付手段を備え、前記分析波形分割手段は、入力された前記時空間分解能に基づいて、前記分析波形を分割して、前記複数の局所分析波形を作成する

ことを特徴とする請求項 8に記載の混合音分離装置。

[11] さらに、前記所定の時空間分解能に基づいて、前記分析波形を、時間的に重なることのな!/ヽように分割して、前記複数の局所分析波形を作成する分析波形分割手段を備える

ことを特徴とする請求項 1に記載の混合音分離装置。

[12] 所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析する装置であって、

前記分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スベクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、

前記局所周波数情報作成手段で求められた前記複数の局所周波数情報を組とし、当該組と前記被分析波形の周波数情報とから、所定の周波数分解能で前記被分析波形に含まれる周波数特徴量を抽出する被分析波形周波数特徴量抽出手段とを備える

ことを特徴とする周波数分析装置。

[13] 所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析するための周波数情報を作成する局所周波数情報作成装置であって、

前記複数の局所周波数情報を組として、所定の記憶装置に格納する格納手段とを備える

ことを特徴とする局所周波数情報作成装置。

[14] 所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析する装置であって、

前記分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スベクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を取得する取得手段と、

前記取得手段が取得した前記複数の局所周波数情報を組とし、当該組と前記被分析波形の周波数情報とから、所定の周波数分解能で前記被分析波形に含まれる周波数特徴量を抽出する被分析波形周波数特徴量抽出手段とを備える

ことを特徴とする周波数特徴量分析装置。

[15] さらに、周波数分解能の入力を受付ける周波数分解能入力受付手段を備え、前記被分析波形周波数特徴量抽出手段は、入力された前記周波数分解能に基づいて、前記複数の局所周波数情報の組の構成を決定する

ことを特徴とする請求項 14に記載の周波数特徴量分析装置。

[16] 複数の音から構成される混合音中より特定の音を分離する混合音分離方法であつて、

所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成ステップと、

前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間のパターンマッチングを行な、、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出ステップと、

前記特定音周波数特徴量抽出ステップで抽出された前記複数の局所周波数情報の組に基づ、て、前記特定の音の信号を作成する音信号作成ステップとを含むことを特徴とする混合音分離方法。

[17] 複数の音力構成される混合音中より特定の音を分離するプログラムであって、所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成ステップと、

前記特定音周波数特徴量抽出ステップで抽出された前記複数の局所周波数情報の組に基づ、て、前記特定の音の信号を作成する音信号作成ステップとをコンビュータに実行させる

ことを特徴とするプログラム。