WO2019203124A1

WO2019203124A1 - ミキシング装置、ミキシング方法、及びミキシングプログラム

Info

Publication number: WO2019203124A1
Application number: PCT/JP2019/015832
Authority: WO
Inventors: 弘太高橋; 宰宮本; 良行小野; 洋司阿部; 比呂志井上
Original assignee: 国立大学法人電気通信大学; ヒビノ株式会社
Priority date: 2018-04-17
Filing date: 2019-04-11
Publication date: 2019-10-24
Also published as: US11308975B2; US20210151067A1; EP3783912A4; EP3783912A1; EP3783912B1; JP7260100B2; JPWO2019203124A1

Abstract

再生装置の規模や品質を問わずに非優先音の劣化を抑制し、より自然な混合音を出力することのできるミキシング技術を提供する。時間周波数平面上の第１信号と第２信号のミキシング装置は、前記第１信号の増幅と前記第２信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、前記制御信号に基づいて、前記第１信号を増幅させる第１ゲインと前記第２信号を減衰させる第２ゲインを導出するゲイン導出部とを有し、前記制御信号は、少なくとも第１の値と、前記第１の値と異なる第２の値をとり、前記第１の値は周波数軸上で一定帯域幅を超えて連続せず、前記ミキシング装置は、前記制御信号が前記第１の値を示すときは、前記第１信号と前記第２信号に前記優先的混合を適用し、前記制御信号が前記第２の値を示すときは、前記第１信号と前記第２信号に単純加算を適用する。

Description

ミキシング装置、ミキシング方法、及びミキシングプログラム

　本発明は、入力信号のミキシング技術に関する。

　スマートミキサは、優先音と非優先音を時間周波数平面上で混合することにより、非優先音の音量感を保ったまま、優先音の明瞭度をあげる新しい音混合法である（たとえば特許文献１参照）。時間周波数平面上の各点で信号特性を判断し、その信号特性に応じて優先音の明瞭度を上げる処理が施される。しかし、スマートミキシングで優先音を明瞭に聞かせることに重点がおかれると、非優先音に若干の副作用（音の欠落感の知覚）が生じ得る。そこで、優先音と非優先音に適用されるゲインを適切に決定することで、より自然な混合音を出力する手法が提案されている（たとえば、特許文献２参照）。

　図１は、従来のスマートミキサの構成を示す図である。優先音と非優先音のそれぞれが時間周波数平面上に展開され、それぞれの平滑化パワーから優先音のためのゲインα１と、非優先音のためのゲインα２が導出される。優先音と非優先音にゲインα１とゲインα２をそれぞれ乗算して加算した後に、時間領域信号に戻して出力する。

　ゲインの導出には、「対数強度の和の原理」と、「穴埋めの原理」という２つの基本原理が用いられている。「対数強度の和の原理」とは、出力信号の対数強度を入力信号の対数強度の和を超えない範囲に制限するものである。「対数強度の和の原理」によって、優先音が強調されすぎて混合音に違和感が生じることを抑制する。「穴埋めの原理」とは、非優先音のパワーの減少を、優先音のパワー増加分を超えない範囲に制限するものである。「穴埋めの原理」によって、混合音において非優先音が抑制されすぎて違和感が生じることを抑制する。

　これらの原理に基づいて合理的にゲインが決定され、より自然な混合音が出力される。

特許第５０５７５３５号特開第２０１６－１３４７０６号公報

　特許文献２の手法は、スマートフォンなどの小型で簡易な再生装置を想定しており、そのような再生装置に適用される限り、優先音を明瞭に維持し、かつ非優先音の劣化（欠落感）を知覚されにくくするという効果を発揮する。しかし、業務用のミキサーでは、高音質を求めて大掛かりな再生装置を用い、大音量での再生もしばしば行われる。小型で簡易な再生装置では知覚されない非優先音の劣化が、不自然な刺激として知覚されることがある。

　本発明は、再生装置の規模や品質を問わずに、非優先音の劣化を抑制し、より自然な混合音を出力することのできるミキシング技術を提供することを課題とする。

　本発明では、優先音の中の特定の重要周波数帯域に優先音の強調と非優先音の抑制を含む優先的な音混合処理を適用することで、非優先音の劣化を抑制する。

　具体的には、本発明の一つの側面において、時間周波数平面上の第１信号と第２信号のミキシング装置は、
　前記第１信号の増幅と前記第２信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、
　前記制御信号に基づいて、前記第１信号を増幅させる第１ゲインと前記第２信号を減衰させる第２ゲインを導出するゲイン導出部と、
を有し、
　前記制御信号は、少なくとも第１の値と、前記第１の値と異なる第２の値をとり、前記第１の値は周波数軸上で一定帯域幅を超えて連続せず、
　前記ミキシング装置は、前記制御信号が前記第１の値を示すときは、前記第１信号と前記第２信号に前記優先的混合を適用し、前記制御信号が前記第２の値を示すときは、前記第１信号と前記第２信号に単純加算を適用する。

　上記の構成により、再生装置の規模や品質を問わずに、非優先音の劣化を抑制して、より自然な状態で混合音を出力することができる。

従来のスマートミキサの構成を説明する図である。スマートミキシングの基本概念を説明する図である。第１実施形態のミキシング装置の概略図である。図３の制御信号生成部の構成例を示す図である。第２実施形態のミキシング装置の概略図である。第３実施形態における高い周波数でのBark軸への変換を示す図であり。第３実施形態における低い周波数でのBark軸への変換を示す図である。第３実施形態のミキシング装置の概略図である。 Bark軸上で制御信号を生成したときのモニタ画面を示す。実施形態の制御信号生成部の制御信号生成処理を示すフローチャートである。通常モードでのvivid信号生成器の構成を示す図である。第３実施形態のvivid信号生成器の構成を示す図である。 vivid信号生成のソースを選択するＧＵＩ画面を例示する図である。通常モードでの優先音の立ち上がり直後の波形である。通常モードでの優先音の立ち上がりから１００ｍｓ経過後の波形である。選択モードで相対スペクトルだけが選択されたときの立ち上がり直後の波形である。選択モードで相対スペクトルだけが選択されたときの立ち上がりから１００ミリ秒経過後の波形である。実施形態のミキシング装置を用いたミキシングシステムの概略図である。

　図２は、スマートミキシングの基本概念を説明する図である。優先音と非優先音のそれぞれに窓関数をかけて短時間のＦＦＴ（Fast Fourier Transform：高速フーリエ変換）を行い、周波数平面（Ｐtf）上の信号に変換する。周波数平面上で、優先音と非優先音のそれぞれにゲインを乗算し、ゲイン乗算後の優先音と非優先音を合算（ミックス）する。合算された信号を時間領域の信号に戻して出力する。

　後述するように、本発明は新規な制御信号を用いてゲインを調整し、優先音の明瞭度を保ったまま非優先音の欠落感を抑制する点に特徴がある。ここで、優先音とは、音声、ボーカル、ソロパート等のように、優先的に聞かせたい音である。非優先音とは、バックグラウンド音、伴奏音等、優先音以外の音である。

　時間周波数平面上に展開された優先音と非優先音は、時間方向の座標値ｉと、周波数方向の座標値ｋを用いて、それぞれＸ₁[ｉ，ｋ]とＸ₂[ｉ，ｋ]で表される。時間周波数平面上で、優先音にゲインα１が乗算された信号はＹ₁[ｉ，ｋ]、非優先音のゲインα２が乗算された信号をＹ₂[ｉ，ｋ]とする。ゲインが乗算された信号Ｙ₁[ｉ，ｋ]とＹ₂[ｉ，ｋ]を合算した信号が混合結果を表わす信号Ｙ[ｉ，ｋ]である。この処理は、式（１）と式（２）で表される。

混合結果を表わす信号Ｙ[ｉ，ｋ]は、時間領域の信号に復元されて、混合音の信号ｙ[ｎ]が出力される。

　発明者らは、スマートフォン向けのスマートミキサを高音質が要求される音響機器、たとえばコンサート会場等の業務用機器にそのまま適用して大音量で出力した場合、非優先音の劣化が目立ってしまうという問題を見いだした。スマートフォン向けのスマートミキサの場合でも、非優先音の原音をあらかじめ知っている聴取者がスマートミサーによる混合音を注意深く聴いたときに非優先音の欠落感を感じる場合があるが、従来法では、これを避けるために、優先的混合を行う周波数帯域を３５０Ｈｚ以上に限定するなど、簡易的な措置がとられることもあった。

　しかし、コンサート会場やレコーディングスタジオにおけるミキシング装置を考えたときに、３５０Ｈｚ以下の帯域においてこそ優先的混合、すなわち優先音の強調と非優先音の抑制を実施したいことも多く、簡易的な措置では不十分である。

　一方で、発明者らは非優先音の劣化が特に目立つ現象を解析したところ、周波数軸上で一定以上の長さにわたって優先音が非優先音を押さえつけてしまう場合に、非優先音の欠落感が顕著になることがわかった。

　この知見に基づき、優先的混合は、周波数軸上で一定の長さ以上にわたって連続しないほうがよいという結論に達し、独自の制御信号を導入するに至った。この制御信号は、非優先音欠落感なしに明瞭な混合音を実現するという意味で、この明細書中では「vivid信号」と呼ばれる。

　vivid信号は、優先的混合（非優先音の抑制を含む）を適用するか否か、適用するとしたらどの程度で行うかを示す指標である。vivid信号は、周波数軸上で優先的混合が一定の帯域幅を超えて連続しないように生成され、非優先音の劣化が知覚されないようにミキシングを制御する。

　優先的混合が適用される一定範囲の周波数帯域として、優先音の中の重要な周波数成分が選択される。たとえば、コンサート会場でボーカル（優先音）とバックバンドの音（非優先音）をミキシングする場合、ボーカルの中に特に重要な周波数帯域が存在する。楽器のみのセッションの場合でも、特定の楽器が演奏するパートの中に重要な周波数帯域が存在する。重要な周波数成分とは、他のパートと比較してエネルギーが集中している帯域と言い換えてもよい。

　「vivid信号」は、重要な周波数帯域に対して優先的混合が行われ、それ以外の帯域では単純加算が行われるように生成される。重要な周波数帯域は曲目によって異なるので、ミキシング中にリアルタイムで優先音の重要周波数帯域を判別し、vivid信号を生成する。すなわち、vivid信号によって優先音の重要な周波数部分だけを強調し、非優先音を減衰させる箇所を絞る。vivid信号を用いてゲインマスクを生成することで、優先音の明瞭さを損なわずに、非優先音の音質を向上することができる。

　また、スマートミキシングの処理において、人間の聴覚特性に合致させる工夫をする。

　＜第１実施形態＞
　図３は、第１実施形態のミキシング装置１Ａの概略図である。ミキシング装置１Ａは、信号入力部１１、周波数解析部１２、信号処理部１５Ａ、周波数時間変換部１６、及び信号出力部１７を有する。信号入力部１１は、ミキシングの対象となる複数の入力信号を入力する。入力信号はたとえばオーディオ信号であり、音声等の優先音の信号ｘ₁［ｎ］と、バックグラウンド音等の非優先音の信号ｘ_２［ｎ］を含む。

　周波数解析部１２は、周波数解析によって、優先音と非優先音の入力信号を時間周波数平面上に展開する。周波数解析は、短時間ＦＦＴ（Fast Fourier Transform；高速フーリエ変換）、ウェーブレット変換、フィルタバンクによる変換、ウイグナー分布などの時間周波数分布への変換等、任意の手法を用いることができる。実施形態では、入力信号に窓関数を掛けて、短時間ＦＦＴにより入力信号を時間周波数平面上に展開する。時間周波数平面上に展開された優先信号をＸ₁[ｉ，ｋ]、非優先信号をＸ₂[ｉ，ｋ]とする。

　信号処理部１５Ａは、パワー算出部１４Ａを有する。パワー算出部１４Ａは、時間周波数平面上に展開された入力信号の強度を算出する強度算出部の一例である。入力信号のパワーは振幅の２乗で表される。パワー算出部１４Ａは、時間周波数平面上の各点（ｉ，ｋ）で、入力信号のパワー|Ｘ[ｉ，ｋ]|²を算出する。後述するように、時間周波数平面上での入力信号強度は、必ずしもパワーに限定されず、対数強度であってもよい。

　優先音と非優先音の強度は、時間方向と周波数方向で平滑化された後にゲイン導出部１９に入力され、ゲイン導出部１９で、優先信号と非優先信号のそれぞれに対するゲインが算出される。時間方向に平滑化されたパワーをＥ[ｉ，ｋ]、周波数方向に平滑化されたパワーをＦ[ｉ，ｋ]とする。

　平滑化されたパワーに基づき、ゲイン導出部１９によって、優先信号のゲインα₁[ｉ，ｋ]と非優先信号のゲインα₂[ｉ，ｋ]が導出される。ゲインα₁[ｉ，ｋ]とα₂[ｉ，ｋ]は、たとえば、ミキシング装置１Ａから出力される混合信号の対数強度が、優先音の対数強度と非優先音の対数強度の和を超えない範囲で優先音が増大され、かつ、優先音のパワー増加分を超えない範囲内で非優先音が減衰されるように決定される。具体的なゲインの算出法として、特許文献２の方法を用いてもよい。

　優先信号と非優先信号にそれぞれゲインα１とα２が乗算された後、加算され、混合結果の信号Ｙ[ｉ，ｋ]が信号処理部１５Ａから出力される。周波数時間変換部１６は、信号処理部１５の出力信号を時間領域の信号ｙ［ｎ］に変換する。信号出力部１７は、時間領域に復元された信号を出力する。

　第１実施形態の特徴として、制御信号生成部１５０によって、優先的混合を行うか、あるいは単純加算を行うかを指示する制御信号（vivid信号）が生成される。vivid信号は、時間周波数平面上に展開された優先音の平滑化スペクトルの絶対量を表わす絶対スペクトルと、優先音スペクトルの局所的な変化を表わす相対スペクトルに基づいて生成される。ゲイン導出部１９は、vivid信号に基づいて優先音と非優先音に適用されるゲインを調整する。

　図４は、図３の制御信号生成部１５０の構成例である。制御信号生成部１５０は、時間方向平滑化部１５１と、第１の周波数方向平滑化部１５２と、第２の周波数方向平滑化部１５３と、減算部１５４と、vivid信号生成器１５５を有する。

　時間方向平滑化部１５１は、時間周波数平面上の優先音の信号強度を時間方向に平滑化して、平滑化信号Ｅｖ[ｉ，ｋ]を出力する。第１実施形態では、優先音のパワーレベルが信号強度として入力される。

　第１の周波数方向平滑化部１５２は、時間方向に平滑化された信号を、周波数方向に平滑化して、絶対スペクトルＦｖ[ｉ，ｋ]を出力する。絶対スペクトルＦｖ[ｉ，ｋ]は、第２の周波数方向平滑化部１５３に入力されて２回目の平滑化を受けるとともに、減算部１５４とvivid信号生成器１５５にも入力される。２回目の平滑化後の信号をＧｖ[ｉ，ｋ]で表す。

　減算部１５４は、１回目の周波数方向の平滑化結果と、２回目の周波数方向の平滑化結果の差分を求め（Ｇｖ[ｉ，ｋ]－Ｆｖ[ｉ，ｋ]）、この差分をあらわす相対スペクトルＨｖ[ｉ，ｋ]をvivid信号生成器１５５に供給する。

　vivid信号生成器１５５は、平滑化された絶対スペクトルＦｖ［ｉ，ｋ］と、相対スペクトルＨｖ［ｉ，ｋ］から、後述する手順でvivid信号Ｖ［ｉ，ｋ］を生成してゲイン導出部１９に出力する。

　vivid信号Ｖ[ｉ，ｋ]は、時間周波数平面の各点（ｉ，ｋ）で少なくとも２値（たとえば「０．０」と「１．０」）をとる。Ｖ[ｉ，ｋ]＝０．０である（ｉ，ｋ）に対して、混合は単純加算で行うものとし、Ｖ[ｉ，ｋ]＝１．０である（ｉ，ｋ）に対して、混合は優先的混合単で行うものとする。ここでいう単純加算とは、時間周波数平面上に展開された優先音と非優先音をそのまま加算する処理であり、ゲインを乗算しないか、または値が１のゲインを乗算する。

　vivid信号Ｖ[ｉ，ｋ]は必ずしも２値である必要はなく、０．０と１．０の間の任意の値を取り得る。０．０＜Ｖ[ｉ，ｋ]＜１．０を満たす（ｉ，ｋ）に対しては、vivid信号の値に応じて効果を軽減した優先的混合動作を行ってもよい。これにより、単純加算の動作と優先的混合の動作を滑らかに接続することができる。

　vivid信号としては、以下の２つの観点から見た条件を両方満たすものが望ましい。

　第１の観点は、「非優先音の欠落感を抑止する」という観点である。上述したように、非優先音の欠落感は、周波数軸上で広い帯域にわたって連続して非優先音の抑制が行われると特に顕著になる。このため、周波数軸上でvivid信号が１．０となる帯域と、０．０となる帯域が交互に配置され、かつ、１．０を示す帯域幅が所定範囲を超えないことが望ましい。

　第２の観点は、「優先音の明瞭度を上げる効果をできるだけ保つ」という観点である。たとえば、ボーカルには、語句をはっきり聴かせるためのフォルマント成分、子音をはっきり聴かせるための数ｋＨｚの帯域成分、音質がこもらないようにするために必要な高周波成分、音のエネルギー感を失わせないための低周波成分などが含まれる。理想的には、これらの周波数成分を、工学的見地、及び音楽理論的見地から検討し、その時点での優先音にとって最も重要な周波数帯域を選択して、vivid信号が１．０になるようにするのが望ましい。

　優先音の重要周波数部分ではvivid信号がＶ[ｉ，ｋ]＝１．０を示すことにより、優先的混合が行われる。一方、優先音がそれほど重要でない部分では、Ｖ[ｉ，ｋ]＝０．０となることにより、単純加算が行われる。これにより、優先音の明瞭度を保ちつつ、非優先音の劣化を抑制することができる。

　しかし上述した理想的な方法では、音声認識をはじめとする多数の複雑な判断機構と最適化問題を解く機構が必要となり、実装上、計算コストが膨大になる。そこで、コンサート会場等で、リアルタイムに重要周波数帯を判断してvivid信号を生成するために、図４の制御信号生成部１５０が用いられる。

　上述のように、時間方向平滑化部１５１は、時間周波数平面上に展開された優先音Ｘ₁[ｉ，ｋ]のパワー|Ｘ₁[ｉ，ｋ]|₂を時間方向に平滑化して、時間平滑化パワーＥｖ[ｉ，ｋ]を得る。時間平滑化パワーＥｖ[ｉ，ｋ]は、式（３）で求められる。

ここで、μｖは指数平滑化方法の係数であり、平滑の時定数τｖとサンプリング周波数Ｆ_sから、式（４）で求められる。

ここで、Ｎ_dは、サンプリング周波数Ｆ_ｓで取得された優先音と非優先音に対してＮ_F点の短時間ＦＦＴを行う際に適用される窓関数のシフト数である（Ｎ_ｄ点シフト）。

　時間平滑化パワーＥｖ[ｉ，ｋ]は、第１の周波数方向平滑化部１５２で、周波数方向に平滑化され、Ｆｖ[ｉ，ｋ]が得られる。このとき、Ｅｖ[ｉ，ｋ]は、
　　　－Ｎ_F/２≦ｋ＜Ｎ_F/２
に対してのみ定義されているので、平滑化には注意が必要である。定義外の部分（ｋ＜－Ｎ_F/２，およびＮ_F/２≦ｋ）を０とおいて平滑化すると、|ｋ|≒Ｎ_F／２に対して絶対スペクトルＦｖ[ｉ，ｋ]が著しく減少する場合がある。そこで、Ｅｖ[ｉ，ｋ]の未定義の部分について、式（５）及び式（６）のように定義域を拡張してから平滑化を行うのが望ましい。

　こうして拡張されたＥｖ[ｉ，ｋ]を周波数方向に平滑化して（１回目の周波数方向の平滑化）、絶対スペクトルＦｖ[ｉ，ｋ]を得る。Ｆｖ[ｉ，ｋ]は式（７）で表される。

ここで、ｆ()は平滑化の重み係数、Ｎ_Aは平滑化の幅である。

　Ｆｖ[ｉ，ｋ]に対して２回目の周波数方向の平滑化を行い、Ｇｖ[ｉ，ｋ]を得る。
Ｇｖ[ｉ，ｋ]は、式（８）で表される。

ここで、ｇ()は平滑化の重み係数である。第１の周波数方向の平滑化と第２の周波数方向の平滑化は、ｆ()とｇ()の係数テーブルをミキシング装置１Ａのメモリに記憶しておき、その係数を乗算することで実施してもよい。ミキシング装置１Ａの演算処理を、ＦＰＧＡ（Field Programmable Gate Array）などのロジックデバイスで実装する場合、ＦＰＧＡに内蔵されるメモリ領域を用いてもよい。

　重み係数の適用に替えては、一定区間の和をとる演算の縦続接続、たとえば、式（９）～（１２）の演算を行うことで、実質的にガウス型に近い効果、すなわちｆ()とｇ()を使ったのと同じ効果を得ることができる。

この方法は乗算器が必要ないため、ＦＰＧＡにスマートミキシングを実装する場合に特に有利である。

　次に、Ｆｖ[ｉ，ｋ]とＧｖ[ｉ，ｋ]の差を取ることで、式（１３）で表される相対スペクトルＨｖ[ｉ，ｋ]を得る。

　１回目の周波数方向の平滑化後のパワーＦｖ[ｉ，ｋ]はスペクトルの絶対量を表わしているとみることができ、Ｆｖ[ｉ，ｋ]を絶対スペクトルと呼ぶ。一方、２回目の周波数方向の平滑化後のパワーＧｖ[ｉ，ｋ]は、Ｆｖ[ｉ，ｋ]の大局的な概形を表わしている。Ｆｖ[ｉ，ｋ]とＧｖ[ｉ，ｋ]の差で定義されたＨｖ[ｉ，ｋ]は、周波数軸上の局所領域に着目したときのＦｖ[ｉ，ｋ]の相対的な凹凸（変化）をあらわしていると解釈できる。そこで、Ｈｖ[ｉ，ｋ]を相対スペクトルと呼ぶ。

　相対スペクトルＨｖ[ｉ，ｋ]の振る舞いについて考える。たとえば、語句をはっきりと聴かせるフォルマント周波数においては、Ｈｖ[ｉ，ｋ]は正になることが期待される。また、フォルトマントとフォルトマントの隙間の周波数では、Ｈｖ[ｉ，ｋ]は負になることが期待される。楽器音の場合においても、エネルギーが相対的に集中している重要な周波数ではＨｖ[ｉ，ｋ]は正になることが期待され、重要な周波数と重要な周波数の隙間の領域では、Ｈｖ[ｉ，ｋ]は負になることが期待される。

　まず、vivid信号の候補として、相対スペクトルから、式（１４）の信号Ｖ_H[ｉ，ｋ]を考える。

時間周波数平面上の点（ｉ，ｋ）における相対スペクトルＨｖ[ｉ，ｋ]が一定の閾値Ｈ_L[ｋ]よりも小さい場合には、Ｖ_H[ｉ，ｋ]＝０．０とする。相対スペクトルＨｖ[ｉ，ｋ]が一定の閾値Ｈ_H[ｋ]以上である場合（すなわちエネルギーが高い場合）は、Ｖ_H[ｉ，ｋ]＝１．０とする。相対スペクトルＨｖ[ｉ，ｋ]が、閾値Ｈ_L[ｋ]以上でありＨ_H[ｋ]よも小さい場合には、その位置での相対スペクトルの値に応じて、０．０以上で、１．０よりも小さい値を与える。

　たとえば、最も簡単な設定として、Ｈ_L[ｋ]＝Ｈ_H[ｋ]＝０とすれば、周波数軸上でＶ_H[ｉ，ｋ]が１．０となる帯域と０．０となる帯域が、一定間隔以内で交互にあらわれやすくなり、上述した「非優先音の欠落感を抑止する」ため（第１の観点）の条件をほぼ満たしている。また、フォルマント周波数においてＶ_H[ｉ，ｋ]が１．０となることが期待されていることから、「優先音の明瞭度を上げる効果をできるだけ保つ」ため（第２の観点）の条件も満たしている。したがって、Ｖ_H[ｉ，ｋ]はvivid信号として有力な候補である。

　しかし、vivid信号として式（１４）で定義されるＶ_H[ｉ，ｋ]をそのまま使うと、優先音の音強度が非常に小さい場合（たとえば、ボーカルが発声を行っていないときにボーカルのマイクにバックバンドの音が混入している場合）にも、vivid信号が１．０となってしまうおそれがある。

　そこで、絶対スペクトルから、式（１５）によってＶ_F[ｉ，ｋ]を求める。

式（１５）では、絶対スペクトルＦｖ[ｉ，ｋ]が一定の閾値Ｆ_L[ｋ]よりも小さい場合は、時間周波数平面上の点（ｉ，ｋ）において優先音は発声されていないとして、Ｖ_F[ｉ，ｋ]を０．０とし、絶対スペクトルＦｖ[ｉ，ｋ]が一定の閾値Ｆ_H[ｋ]以上である場合は、優先音が発声されているとしてＶ_F[ｉ，ｋ]＝１．０とする。絶対スペクトルＦｖ[ｉ，ｋ]が、２つの閾値の間にあるときは、その位置での絶対スペクトルの値に応じて０．０よりも大きく、１．０よりも小さい値を与える。

　以上の準備のもとで、vivid信号Ｖ[ｉ，ｋ]を、Ｖ_F[ｉ，ｋ]とＶ_H[ｉ，ｋ]の最小値（いずれか小さい方の値）として、式（１６）のように定義する。

　式（１６）にしたがってvivid信号生成器１５５で生成されるvivid信号は、ゲイン導出部１９における優先的混合と単純加算の切り替えに用いられる。この切り替えは、具体的には、以下の方法で実現される。

　スマートミキサのパラメータには、優先音のゲインα１の上限Ｔ_1Hと、非優先音のゲインα２の下限Ｔ_2Lが設定される。これは、優先音を所定の閾値を超えない範囲内で強調し、非優先音を所定の閾値を超えない範囲内で抑制するという「穴埋めの原理」によるものである。これらの閾値を、時間周波数平面の各点（ｉ，ｋ）ごとに、式（１７）及び式（１８）のように、定義しなおす。

　調整されたゲインの上限Ｔ_1Hと下限Ｔ_2Lと閾値を用いて、Ｖ[ｉ，ｋ]＝１．０のときに優先的混合が行われ、Ｖ[ｉ，ｋ]＝０．０のときに単純加算が行われる。単純加算と優先的混合の間は、Ｖ[ｉ，ｋ]の値に応じて優先的混合の度合いが変化して、優先的混合と単純加算の間を滑らかに接続することができる。なお、優先音のためのゲインα１は、一つ前の時間フレーム（ｉ－１）におけるα１を、調整された上限Ｔ_1Hを超えない範囲で、所定のステップサイズだけ増加させることによって得られる。非優先音のためのゲインα２は、一つ前の時間フレーム（ｉ―１）におけるα２を、Ｔ_2Lよりも小さくならない限度で所定のステップサイズだけ減少させることによって得られる。

　vivid信号により優先的混合を行うか否かが特定され、優先的混合を行う際に、合理的な範囲内で算出されるゲインα１とα２を用いて優先音と非優先音が加算される。時間領域に復元される混合信号により、優先音が強調され、かつ非優先音が十分な音量感をもつ自然な音が再生される。

　＜第２実施形態＞
　図５は、第２実施形態のミキシング装置１Ｂの概略図である。第１実施形態のミキシング装置１Ａと同じ構成要素には同じ符号を付けて、重複する説明を省略する。第１実施形態では、時間周波数平面上に展開された優先音のパワー（振幅の２乗）に基づいて、vivid信号を生成した。第２実施形態では、時間周波数平面上に展開された優先音の絶対値の対数に基づいてvivid信号を生成する。

　第１実施形態のように、優先音と非優先音をパワー|Ｘ₁[ｉ，ｋ]|²と|Ｘ₁[ｉ，ｋ]|²で評価すると、２乗することでビット長が２倍になる。スマートミキサをＦＰＧＡ等のロジックデバイスで実現する場合、処理量が多くなる。

　一方、スマートミキサにグラフィカルな表示装置を設け、時間周波数平面上のパワーを濃淡もしくは疑似カラーで表示する場合、対数演算が行われる。表示のために対数演算を行うのであれば、強度関連の演算について、はじめから対数をとって（ｄＢ表記により）演算を行う方が簡便である。

　ミキシング装置１Ｂは、信号入力部１１、周波数解析部１２、信号処理部１５Ｂ、周波数時間変換部１６、及び信号出力部１７を有する。信号入力部１１は、ミキシングの対象となる優先信号と非優先信号を入力する。周波数解析部１２によってそれぞれ時間周波数平面上に展開された信号Ｘ₁[ｉ，ｋ]とＸ₂[ｉ，ｋ]は、信号処理部１５Ｂに入力される。

　信号処理部１５Ｂは、強度算出部として、対数強度算出部１４Ｂを有する。対数強度算出部１４Ｂは、たとえばＣＯＲＤＩＣ法を用いて、入力された複素数値の信号Ｘ₁[ｉ，ｋ]とＸ₂[ｉ，ｋ]のノルム|Ｘ₁[ｉ，ｋ]|、及び|Ｘ₂[ｉ，ｋ]|を求める。次に、たとえばメモリ等に記憶されたテーブルを参照して対数演算を行い、優先音の対数強度ｌｏｇ|Ｘ₁[ｉ，ｋ]|と、非優先音の対数強度ｌｏｇ|Ｘ₂[ｉ，ｋ]|を算出する。

　優先音と非優先音の対数強度は、時間方向と周波数方向で平滑化された後にゲイン導出部１９に入力され、ゲイン導出部１９で、優先信号と非優先信号のそれぞれに対するゲインが算出される。時間方向に平滑化された対数強度をＥ[ｉ，ｋ]、周波数方向に平滑化された対数強度をＦ[ｉ，ｋ]とする。

　平滑化された対数強度と、制御信号生成部１５０からのvivid信号に基づいて、ゲイン導出部１９により、優先信号のゲインα₁[ｉ，ｋ]と、非優先信号のゲインα₂[ｉ，ｋ]が導出される。ゲインα₁[ｉ，ｋ]とα₂[ｉ，ｋ]は、一定の重要周波数帯域において、式（１７）と式（１８）で定義された上限と下限を超えない範囲内で優先音が増大され、非優先音が減衰されるように決定される。

　優先信号と非優先信号にそれぞれゲインα１とα２が乗算された後、加算され、混合結果の信号Ｙ[ｉ，ｋ]が信号処理部１５Ｂから出力される。周波数時間変換部１６は、信号処理部１５の出力信号を時間領域の信号ｙ［ｎ］に変換する。信号出力部１７は、時間領域に復元された信号を出力する。

　第２実施形態では、優先音の対数強度ｌｏｇ|Ｘ₁[ｉ，ｋ]|が制御信号生成部１５０に入力されて、ゲインの導出を制御するvivid信号が生成される。制御信号生成部１５０の構成は、図４の構成と同じである。異なる点は、時間方向平滑化部１５１に入力される信号強度が、時間周波数平面上の優先音のパワーではなく、優先音の振幅の対数値となる点である。

　時間方向平滑化部１５１以降の動作は、第１実施形態と同じである。すなわち、入力された対数強度は時間方向と周波数方向に平滑化されて平滑化スペクトル（絶対スペクトル）が生成される。絶対スペクトルはさらに周波数方向に平滑化され、絶対スペクトルとの差分に基づいて、周波数軸上の局所的な変化を表わす相対スペクトルが生成される。vivid信号生成器１５５は、絶対スペクトルに基づく信号値と、相対スペクトルに基づく信号値のいずれか小さい方にしたがってvivid信号を生成し、出力する。

　ゲイン導出部１９は、優先音と非優先音の平滑化された対数値と、vivid信号とに基づいてゲインα１とα２を生成する。優先音と非優先音の入力信号にゲインα１とα２がそれぞれ乗算され、乗算値が加算されて、混合結果の信号Ｙ[ｉ，ｋ]が信号処理部１５Ｂから出力される。信号Ｙ[ｉ，ｋ]は、周波数時間変換部１６で時間領域の信号に復元され、信号出力部１７から出力される。

　なお、図５における時間方向に平滑化された信号Ｅ[ｉ，ｋ]と周波数方向に平滑化された信号Ｆ[ｉ，ｋ]は、いずれも対数強度を用いた新しい変数であり、第１実施形態の図３に示されている信号Ｅ[ｉ，ｋ]とＦ[ｉ，ｋ]とは値が異なる。また、制御信号生成部１５０で生成される時間方向平滑化信号Ｅｖ[ｉ，ｋ]、絶対スペクトルＦｖ[ｉ，ｋ]、相対スペクトルＨｖ[ｉ，ｋ]なども、算出方法は同じであるが値は異なる。

　人間は、パワーの大きさに関して対数的に感じる聴覚特性を持っているので、平滑化の縦軸に関しては、パワーよりも対数強度の値をベースにすることで、聴取者の感覚に適したミキシング処理を行うことができる。

　＜第３実施形態＞
　第３実施形態では、周波数方向での平滑化を行う際に、人間の聴覚特性を反映させる。実施形態では、vivid信号の生成のために、１回目の周波数方向の平滑化で絶対スペクトルＦｖ[ｉ，ｋ]が得られ、２回目の周波数方向の平滑化により、大局的な概形を表わすスペクトルＧｖ[ｉ，ｋ]が得られる。Ｆｖ[ｉ，ｋ]とＧｖ[ｉ，ｋ]は、上述した式（７）と式（８）でそれぞれ得られる。

　平滑化を式（７）と式（８）で実行するとき、平滑化の効果は周波数軸の全ての位置で同一となる。しかし、人間の聴覚フィルタは、低い周波数で狭く、高い周波数で広いという特性を有している。換言すると、低い周波数帯域で聴覚の分解能が高く、高い周波数帯域で分解能は低くなる。

　周波数方向への平滑化処理を、人間の聴覚特性に合致させるならば、式（７）におけるｆ()と、式（８）におけるｇ()に周波数依存性を持たせることが望ましい。しかし、周波数依存性を持たせようとすると、そのデータを記憶するメモリの追加容量が必要になるだけでなく、式（９）～（１２）の加算器だけの計算が使えなくなり、計算負荷が大きくなる。

　一方、人間の聴覚フィルタの特性を考慮した周波数尺度として、Bark尺度、ＥＲＢ（Equivalent Rectangular Bandwidth：等価矩形帯域幅）尺度などが知られている。Bark尺度の範囲は、１から２４であり、聴覚の２４の臨界帯域に対応している。Bark尺度に基づく周波数軸はBark軸と呼ばれ、ＥＲＢ尺度に基づく周波数軸はＥＲＢ軸と呼ばれる。これらの軸を使って時間周波数平面を構成することで、ｆ()やｇ()に周波数依存性を持たせなくても、式（７）と式（８）による平滑化の処理が、人間の聴覚特性に合致したものとなる。すなわち、低い周波数では狭い平滑化が行われ、高い周波数では広い平滑化が実施される。そこで、平滑化に先立って、周波数軸の変換を行う。

　図６は、高い周波数でのBark軸への変換を示す図であり、図７は、低い周波数でのBark軸への変換を示す図である。図６と図７を参照して、線形周波数軸からBark軸へのデータの変換について説明する。図６と図７において、左から２番目の縦軸は線形周波数軸ｆであり、最も左側の縦軸は、線形周波数軸のビン番号ｋである。左から３番目の縦軸は、Bark軸ｆ_Barkである。一番右側の縦軸は、Barkビン番号ｈである。ｆ軸上のビンとBark軸（ｆ_Bark）上のビンは、周波数帯域によって、１対１であってもよいし、多対１、あるいは１対多であってもよい。

　線形軸の周波数ｆからBark軸の周波数ｆ_Barkへの変換関数をＪ_B()とすると、この変換は式（１９）及び式（２０）であらわされる。

　線形軸データの０～Ｆ_S/２[Ｈｚ]の周波数成分が、ビン番号０～Ｎ_F/２の（Ｎ_F/２＋１）個の周波数ビン上にあらわされているとする。このうち０～Ｆ_B[Ｈｚ]の周波数成分をBark軸に変換し、ビン番号０～Ｎ_Bの（Ｎ_B＋１）個のBarkビンであらわすように変換するものとする。

　変換は、Barkビン番号ｈが相当する周波数に最も近い線形周波数軸上の周波数ビン番号ｋのデータをそのまま使うという簡単な方法でもよい。しかし、この方法では、小さなｈにおいては、同じｋのデータを繰り返し参照することになる。また、大きなｈに対しては読み飛ばされるｋが生じ得る。結果として、時間周波数平面上での値の滑らかさが失われる場合がある。そこで、図６及び図７の処理を行うことで、Bark軸での時間周波数平面上のデータを滑らかにする。

　まず、第ｈ番目のBarkビンに対応する線形周波数領域の下限と上限をそれぞれf_L（ｈ）とｆ_H（ｈ）とすると、下限と上限は、式（２１)と式（２２）で表される。

　図６を参照すると、第５７番目のBarkビンに対応して、５６．５／Ｎ_Bが下限を求めるときの係数として用いられ、５７．５／Ｎ_Bが上限を求めるときの係数として用いられる。

　一方、第ｋ番目の線形周波数ビンに対応する周波数は、ｋＦ_S／Ｎ_F[Ｈｚ]なので、変換前のデータを周波数軸上に展開すると、図６の折れ線グラフを描くことができる。折れ線は、線形周波数軸での信号強度（パワーまたは対数強度）を表わす。折れ線と線形周波数軸ｆの間の領域のうち、上限ｆ_H（５７）と下限ｆ_L（５７）に挟まれた斜線の領域の面積を求める。この面積を線形周波数軸上の間隔ｋ_Δ（５７）で除算することで、Barkビン番号ｈ＝５７に対応する線形周波数ｆのビン番号が得られる。ここで、
　　　ｋ_Δ（ｈ）＝Ｎ_F／Ｆ_S（ｆ_H（ｈ）－ｆ_L（ｈ））
である。

　図６のように高い周波数領域では、Bark軸上のひとつのｈが線形周波数軸上の多数のｋを参照することになるが、上述した変換処理により滑らかな変換が実現される。

　図７のように低い周波数領域では、複数のｈから、ひとつの区間、すなわちｋとｋ＋１の間の区間が参照されるが、この場合も上述した方法でなめらかな変換が実現できる。すなわち、Barkビンｈが１７の場合、上限をｆ_H（１７）と下限をｆ_L（１７）の間の斜線の領域の面積を求め、この面積をｋ_Δ（１７）で除算することで、Barkビン番号ｈ＝１７に対応する線形周波数ｆのビン番号が得られる。

　上述した周波数変換の演算は、Barkビン番号ｈごとに、どのｋをどのような重みで加算するかという計算をあらかじめ求めておき、これをテーブルとして格納しておくことで、ＦＰＧＡでも容易に実行することができる。

　なお、逆変換（Bark軸から線形軸に戻す処理）も、同じ方法で逆向きの方向の演算により表現することができる。

　図８は、第３実施形態のミキシング装置１Ｃの概略図である。第１実施形態及び第２実施形態と同じ構成要素には同じ符号を付けて、重複する説明を省略する。ミキシング装置１Ｃは、信号入力部１１と、周波数解析部１２と、信号処理部１５Ｃと、周波数時間変換部１６と、信号出力部１７を有する。信号入力部１１、周波数解析部１２、周波数時間変換部１６、及び信号出力部１７の構成と動作は、第１実施形態及び第２実施形態と同じである。

　信号処理部１５Ｃは、平滑化器、乗算器、加算器等の他に、強度算出部としての対数強度算出部１４Ｂ、周波数軸変換部１８、周波数軸の逆変換部２１、ゲイン導出部１９、及び制御信号生成部２５０を有する。信号処理部１５Ｃのうち、二重丸（◎）は線形周波数軸上での信号をあらわし、黒丸（●）は、Bark軸上での信号をあらわす。

　信号処理部１５Ｃにおいて、対数強度算出部１４Ｂは、入力された複素数値の信号Ｘ₁[ｉ，ｋ]とＸ₂[ｉ，ｋ]から、優先音の対数強度ｌｏｇ|Ｘ₁[ｉ，ｋ]|と、非優先音の対数強度ｌｏｇ|Ｘ₂[ｉ，ｋ]|を算出する。

　優先音と非優先音の対数強度ｌｏｇ|Ｘ₁[ｉ，ｋ]|とｌｏｇ|Ｘ₂[ｉ，ｋ]|は、周波数軸変換部１８によって、人間の聴覚尺度に合致する周波数軸（たとえばBark軸）に変換される。Bark軸に変換された優先音と非優先音の対数強度Ｄ₁ ^B[ｉ，h]とＤ₂ ^B[ｉ，h]は、それぞれ時間方向と周波数方向に平滑化された後に、周波数軸の逆変換部２１によって、線形周波数軸の平滑化信号Ｆ₁[ｉ，ｋ]とＦ₂[ｉ，ｋ]に戻された後に、ゲイン導出部１９に入力される。

　一方、Bark軸上での優先音の対数強度Ｄ₁ ^B[ｉ，h]は、制御信号生成部２５０に入力されて、vivid信号の生成に用いられる。時間方向平滑化部２５１は、Bark軸上での優先音の対数強度Ｄ₁ ^B[ｉ，h]を時間方向に平滑化して、時間方向平滑化信号Ｅ_V ^B[ｉ，h]を出力する。第１の周波数方向平滑化部２５２は、時間方向に平滑化された信号に周波数方向平滑化を行い、絶対スペクトルＦ_V ^B[ｉ，h]を出力する。

　第２の周波数方向平滑化部２５３は、周波数方向に平滑化された信号をさらに平滑化し、絶対スペクトルＦ_V ^B[ｉ，h]の大局的な概形を表わすスペクトルＧ_V ^B[ｉ，h]を出力する。減算部２５４は、絶対スペクトルと相対スペクトルの差分を計算して、相対スペクトルＨ_V ^B[ｉ，h]を出力する。

　絶対スペクトルＦ_V ^B[ｉ，h]と相対スペクトルＨ_V ^B[ｉ，h]は、vivid信号生成器２５５に入力され、vivid信号生成器２５５からBark軸上の制御信号Ｖ^B[ｉ，h]が出力される。周波数軸の逆変換部３５６は、制御信号Ｖ^B[ｉ，h]を線形周波数軸に戻してから、vivid信号Ｖ[ｉ，ｋ]をゲイン導出部１９に供給する。

　制御信号生成部２５０において、２回の周波数方向の平滑化をBark軸上（あるいはＥＲＢなど、他の聴覚尺度軸であってもよい）で行ってからvivid信号を生成するので、より人間の聴覚に即した制御信号を生成することができる。グラフィカルな表示装置を接続して時間周波数平面上のパワーを濃淡または疑似カラーで表示する場合にもBark軸で表示することができるため、処理が効率的になる。

　図９は、Bark軸上で制御信号を生成したときのモニタ画面を示す。図９の左側の３つのスペクトルが、bark軸での絶対スペクトルＦ_V ^B [ｉ，h]とその下限閾値Ｆ_L ^B [ｉ，h]、及び上限閾値Ｆ_H ^B [ｉ，h]である。中央の３つのスペクトルが、bark軸での相対スペクトルＨ_V ^B [ｉ，h]とその下限閾値H_L ^B [ｉ， h]、及び上限閾値H_H ^B [ｉ，h]である。図９の右側のスペクトルが出力されるvivid信号Ｖ^B [ｉ，h]である。vivid信号は、０．０～１．０の範囲の値をとる。

　絶対スペクトルＦ_V ^B [ｉ，h]が、下限閾値Ｆ_L ^B [ｉ，h]と上限閾値Ｆ_H ^B [ｉ，h]に対してどの位置にあるかによって、局所的なエネルギー集中の評価結果であるvivid信号Ｖ^B [ｉ，h]が決まってくる。たとえば、絶対スペクトルＦ_V ^B [ｉ，h]が下限閾値Ｆ_L ^B [ｉ，h]よりも小さいときは、局所的に集中するエネルギーがないため、単純加算を行うべく、vivid信号の値は０．０に設定される。絶対スペクトルＦ_V ^B [ｉ，h]が上限閾値Ｆ_H ^B [ｉ，h]以上になると、そのエネルギー集中（優先音）を強調し、かつ非優先音の劣化を抑制して優先的混合を行うために、vivid信号の値は暫定的に１．０に設定される（式（１５）参照）。それ以外の場合は、vivid信号は絶対スペクトルの値に応じた中間値をとる。

　絶対スペクトルの上限閾値Ｆ_H ^B [ｉ，h]と下限閾値Ｆ_L ^B [ｉ，h]は、周波数帯域によって大きさが異なる。高い周波数領域では騒音エネルギーが比較的低いため、設定閾値を小さくする。低い周波数領域では騒音エネルギーが比較的高いため、設定閾値を大きくしてある。

　次に、相対スペクトルＨ_V ^B [ｉ，h]に着目すると、相対スペクトルＨ_V ^B [ｉ，h]が下限閾値H_L ^B [ｉ，h]よりも小さい場合は、vivid信号の値は０．０に設定され、上限閾値H_H ^B [ｉ，h]以上になると、vivid信号の値は暫定的に１．０に設定される（式（１４）参照）。それ以外の場合は、vivid信号は相対スペクトルの値に応じた中間値をとる。上限閾値H_H ^B [ｉ，h]と下限閾値H_L ^B [ｉ，h]の間隔がゼロに近づくと、vivid信号の暫定値は実質的に２値の信号になる。

　最終的に出力されるvivid信号Ｖ^B [ｉ，h]は、相対スペクトルに基づくvivid信号と、絶対スペクトルのいずれか小さい方の値をとる（式（１６）参照）。相対スペクトルに基づくvivid信号と絶対スペクトルに基づくvivid信号の双方が１．０のときは、出力されるvivid信号Ｖ^B [ｉ，h]の値は１．０になる。相対スペクトルに基づくvivid信号と絶対スペクトルに基づくvivid信号のいずれか一方が０．０のときは、出力されるvivid信号Ｖ^B [ｉ，h]の値は０．０になる。このように、絶対スペクトルと相対スペクトルの評価の厳しいほうに基づいて出力されるvivid信号が決定される。

　これにより、vivid信号が０．０になる帯域と１．０になる帯域がBark軸上の一定間隔以内で交互にあらわれ、Bark軸上で長く連続して優先的混合が実施されることを抑制することができる。換言すると、Bark軸上で非優先音が長い区間にわたって減衰されることを抑制し、優先音を強調しつつ、非優先音の劣化を防止することができる。

　なお、絶対スペクトルの上限閾値と下限閾値、及び相対スペクトルの上限閾値と下限閾値を、ユーザ入力により設定可能にしてもよい。たとえば、周波数帯域に応じて設定される閾値を変えてもよい。

　＜第３実施形態の変形例＞
　図８では、制御信号生成部２５０においてBark軸上で表現されるvivid信号が、線形周波数軸上に逆変換されてから、ゲイン導出部１９に入力され、ゲインの導出は線形周波数軸上で行われている。これは、ゲイン導出部１９で信号エネルギーを評価する場合などに、線形軸のほうが都合がよいからである。

　しかし、そのような必要がない場合は、ゲインの導出をBark軸上で行ってもよい。この場合は、Bark軸上で表現されたゲインマスク（時間周波数平面上の各点でのα１とα２）を逆変換によって線形周波数軸に戻してから、ゲインの乗算を行えばよい。

　周波数軸の変換を行う場合は、Bark軸に替えてＥＲＢ軸に変換してからvivid信号を生成してもよい。

　制御信号生成部２５０によるvivid信号生成のための時間方向の平滑化の時定数と、ゲイン導出の際の優先音の平滑化のための時定数が等しくてもよいのであれば、Ｅ_V ^B[ｉ，h]＝Ｅ₁ ^B[ｉ，h]となるので、優先音に対する時間軸方向の平滑化のブロックを共用することができる。さらに、周波数方向の平滑化の重み係数も等しくてもよいのであれば、Ｆ_V ^B[ｉ，h]＝Ｆ₁ ^B[ｉ，h]であるので、周波数方向の平滑化ブロック（第１の平滑化）を共用することができる。

　グラフィカルな表示装置によるパワー表示をBark軸上で行う必要が無ければ、優先音と非優先音のパワーに対して周波数軸の変換を行わなくてもよく、対応する逆変換も省略できる。この場合、周波数軸変換部１８と、周波数軸の逆変換部２１を省略できる。Ｄ₁ ^B[ｉ，h]とＤ₂ ^B[ｉ，h]を求めないので、優先音と非優先音の対数強度ｌｏｇ|Ｘ₁[ｉ，ｋ]|とｌｏｇ|Ｘ₂[ｉ，ｋ]|を、そのまま時間方向に平滑化してもよい。

　さらに、制御信号生成部２５０で２段階の周波数の平滑化（周波数方向平滑化部２５２と２５３の処理）を行うかわりに、バンドパスフィルタを用いることもできる。バンドパスフィルタは、通過周波数の中心周波数で出力が正負の反転を繰り返すため、vivid信号が１．０となる帯域と、０．０となる帯域が一定間隔以内で交互にあらわれるという条件を満たすことができる。
＜その他の変形例＞
　vivid信号は、音声等の優先音の重要周波数部分で１．０となる信号である。一方、マイクロフォンに混入する別の音（一般に「かぶり」と呼ばれる音）は、信号レベルが一定範囲内であれば、vivid信号とほぼ無関係のスペクトルを持つ。

　vivid信号を「かぶり」のあるマイク信号に乗算することで、マイク信号のかぶりを低減できる。なぜなら、vivid信号を乗算することで、vivid信号が１．０である部分、すなわち音声の重要部分のみを残しのみを残し、かぶり成分についてはそのような効果が生じなりため、総合的にみると、音声の強調が行われるからである。

　制御信号生成部１５０、２５０で、相対スペクトルＨｖ [ｉ，ｋ]は、必ずしも周波数方向の第１の平滑化強度と第２の平滑化強度の差分で表す必要はなく、２つの平滑化強度の比を用いて表現してもよい。

　図１０は、実施形態の制御信号の生成フローを示すフローチャートである。まず、時間周波数平面上の各点（ｉ，ｋ）で優先音の強度（パワー、対数強度など）を取得する（Ｓ１１）。優先音の強度を時間方向と周波数方向に平滑化した平滑化スペクトル（絶対スペクトル）と、絶対スペクトルの局所的な凹凸（変動）を示す相対スペクトルを求める（Ｓ１２）。

　絶対スペクトルに基づく信号Ｖ_F[ｉ，ｋ]と、相対スペクトルに基づく信号Ｖ_H[ｉ，ｋ]を生成し（Ｓ１３）、Ｖ_F[ｉ，ｋ]とＶ_H[ｉ，ｋ]のいずれか小さい方の値をvivid信号として出力する（Ｓ１４）。すべての点（ｉ，ｋ）について処理が終わるまで（Ｓ１５でＹＥＳ）、ステップＳ１１～１４の処理を繰り返す。この処理により、vivid信号Ｖ[ｉ，ｋ]が１．０となって優先的混合（非優先音に対する抑制処理を含む）が実施される周波数区間が連続することを抑制し、広範囲にわたる非優先音の抑制を防止することができる。

　vivid信号が１．０のときは、優先音を増大させるゲインα１が優先音に乗算され、優先音の増大の範囲内で非優先音を減少させるゲインα２が非優先音に乗算され、乗算結果が加算される。vivid信号が０．０のときは、単純加算が行われる。vivid信号が０．０と１．０の間の値をとるときは、ゲインα１とα２にvivid信号の値に応じた係数を乗算して、α１の増幅率とα２の減衰率を小さくしてもよい。

　＜第４実施形態＞
　上述した第１～第３実施形態では、vivid信号を制御信号として用いて、優先音の特定の周波数帯域に優先的な音混合処理を適用して、自然な混合音を出力している。第４実施形態では、優先音の立ち上がりをさらに良くする構成と手法を提供する。

　vivid信号は、優先音の中の特定の重要な周波数帯域に対して優先的混合を適用し、それ以外の帯域では単純加算を行うことで、非優先音の劣化を抑制する制御信号である。このvivid信号が「１」または所定のレベルに立ち上がるのに時間的な遅れがあると、優先的な混合処理のタイミングが遅れて、優先音の立ち上がりが不十分になる場合があり得る。

　そこで、vivid信号の立ち上がり遅延を解消して、タイミング遅れなしに優先的な混合処理を適用して優先音の立ち上がりを改良する。

　発明者らは、vivid信号が「１」または所定のレベルに立ち上がるのに時間遅れが生じるときの原因を解明した。第１には、絶対スペクトルＦｖ[ｉ，ｋ]を作る際に、周波数解析の窓関数の大きさによって遅延が生じ得ること、第２に、指数平滑化によりさらなる遅延が起こり得ること、である。

　絶対スペクトルＦｖ[ｉ，ｋ]の生成が遅れると、絶対スペクトルＦｖ[ｉ，ｋ]を元にして創られる相対スペクトルＨｖ[ｉ，ｋ]にも、遅延が生じる。

　音があるレベルに達してからvivid信号を「１」または所定のレベルにするのでは、どのような方法をとってもある程度の遅れは生じる。そこで、第４実施形態では、優先音が無音のときはvivid信号をすべての帯域で「１」に設定し、優先音が解析可能なレベルに達して、かつ、解析可能な時間を経過したときに、必要な帯域だけvivid信号を「０」にする。

　無音時にvivid信号を「１」にすることから、絶対スペクトルの基準を用いることができない。状況に応じて、絶対スペクトルの基準と相対スペクトルの基準を選択可能にする。たとえば優先音が無音のときは、相対スペクトルの基準だけでvivid信号を生成し、また、相対スペクトルの上限閾値Ｈ^B _H［ｈ］を負にする。これらの具体的な構成を説明する。

　図１１Ａは、第１～第３実施形態で用いられるvivid信号生成器１５５Ａの動作ブロックを示し、図１１Ｂは、第４実施形態のvivid信号生成器１５５Ｂの動作ブロックを示す。図１１Ａのvivid信号生成器１５５Ａの動作態様を「通常モード」と呼ぶ。図１１Ｂのvivid信号生成器１５５Ｂの動作態様を「選択モード」と呼ぶ。

　図１１Ａのvivid信号生成器１５５Ａでは、絶対スペクトルＦｖ[ｉ，ｋ]に式（１５）の関数を適用して信号Ｖ_F[ｉ，ｋ]を生成し、相対スペクトルＨｖ[ｉ，ｋ]に式（１４）の関数を適用して信号Ｖ_H[ｉ，ｋ]を生成し、この２つの制御信号のうち、いずれか小さい方を最終的なvivid信号Ｖ［ｉ，ｋ］として出力する。

　図１１Ｂのvivid信号生成器１５５Ｂは、絶対スペクトルの基準を使うか否かを選択する第１スイッチ（ＡＢＳ－ＳＷ）と、相対スペクトルの基準を用いるか否かを選択する第２スイッチ（ＲＥＬ－ＳＷ）を有する。

　絶対スペクトルの基準を使用しない場合は、第１スイッチ（ＡＢＳ－ＳＷ）は、固定値「１．０」を選択する。相対スペクトルの基準を使用しない場合は、第２スイッチ（ＲＥＬ－ＳＷ）は、固定値「１．０」を選択する。第１スイッチ（ＡＢＳ－ＳＷ）と第２スイッチ（ＲＥＬ－ＳＷ）の選択結果のうち、いずれか小さい方の値が、最終的なvivid信号Ｖ［ｉ，ｋ］として出力される。

　この選択処理は、制御信号生成部１５０（図４）または２５０（図８）が、入力された優先音信号の強度に基づいて判断し、実行してもよいし、ユーザ入力にしたがって実行されてもよい。

　図１２は、ユーザ入力によるモード選択を可能にするインタフェース（ＧＵＩ）の一例である。モード選択ウィンドウ（Vivid Src）に、絶対スペクトル基準（ＡＢＳ）選択ボックスと、相対スペクトル基準（ＲＥＬ）選択ボックスが表示され、たとえばボックスにチェックを入れることで選択可能である。

　図１２の（ａ）～（ｄ）のように、４通りの組み合わせが可能である。図１２（ａ）で絶対スペクトル基準（ＡＢＳ）と相対スペクトル基準（ＲＥＬ）の両方が選択されているときは、第１～第３実施形態のように、絶対スペクトルと相対スペクトルのそれぞれから制御信号が生成されて、いずれか小さい方が出力される。

　図１２（ｂ）のように、相対スペクトル基準（ＲＥＬ）だけが選択されていると、相対スペクトルから生成された制御信号だけを用いてvivid信号が生成される。絶対スペクトルの制御信号値が「１．０」に固定され、常に相対スペクトルから生成される信号Ｖ_H［ｉ，ｋ］の方が小さくなるからである。

　図１２（ｃ）のように、絶対スペクトル基準（ＡＢＳ）だけが選択されていると、絶対スペクトルから生成された制御信号だけを用いてvivid信号が生成される。相対スペクトルの制御信号値が「１．０」に固定され、常に絶対スペクトルから生成される信号Ｖ_F［ｉ，ｋ］の方が小さくなるからである。

　図１２（ｄ）のように、いずれのスペクトル基準も選択されていない場合は、vivid信号を使わないスマートミキサとなり、すべての帯域において、スマートミキサのゲイン決定手法（「対数強度の和の原理」と「穴埋めの原理」に基づく手法）によって、ゲインが決定される。

　図１２の４つの組み合わせの中から、混合する音の性質、現場の状況等に応じて、最も好ましい設定を選ぶことができる。

　図１３Ａは、通常モードでの優先音の立ち上がり直後の波形の一例を示す。通常モードでは、絶対スペクトル基準と相対スペクトル基準の両方が用いられるが、優先音の立ち上がり直後に相対スペクトルが十分に立ち上がっていない場合、vivid信号は、全周波数帯域にわたって０またはその近傍の値となっている。そのため、スマートミキシングの動作はほとんど行われず、優先音（たとえばボーカル）は強調されない。換言すると、優先音の立ち上り部分でのゲインが相対的に不足しており、ミキシング音中の優先音の立ち上りが不十分に聴こえことがある。

　図１３Ｂは、通常モードでの優先音の立ち上がりから１００ｍｓ経過後の波形である。相対スペクトルが十分に成長しているので、vivid信号の値が「１」となる帯域が半分近くまで増加し、スマートミキシングで期待されている優先音の強調が行われている。

　図１３Ｃは、選択モードで相対スペクトルだけが選択されたときの立ち上がり直後の波形である。相対スペクトルだけを選択する設定は、優先音の立ち上りを特に重視したい場合に行われる。

　ここで、相対スペクトルの上限閾値Ｈ^B _H［ｈ］を負にするという特殊な設定にすることで、無音時または優先音の立ち上り時の相対スペクトルは常に上限閾値を超え（式（１４）参照）、vivid信号は全帯域で「１」になる。

　このように設定しても、非優先音にはほとんど影響しない。無音時や優先音の立ち上り時には、そもそも優先音のエネルギーは弱いので、スマートミキシングのゲイン決定の法則よって、非優先音が大きく削られることはないからである。「穴埋めの原理」によると、非優先は、優先音が強調された範囲内でしか低減されない。また、優先音の立ち上り時間は数ミリ秒から数十ミリ秒程度の短い時間であり、連続聴効果を考えれば、非優先音を保護する意義はそれほど高くないからである。

　図１３Ｄは、選択モードで相対スペクトルだけが選択されたときの、立ち上がりから１００ｍｓ経過後の波形を示す。vivid信号が「１」である帯域は、図１３Ｂの通常モードのときよりも広がるが、vivid信号が「０」である帯域も十分に存在し、優先音の立ち上がりを強化しつつ、非優先音を劣化させないというvivid信号の役割を果たしている。

　絶対スペクトル基準と相対スペクトル基準のそれぞれで適用の有無を選択可能にすることで、無音時、優先音の立ち上がり時などの特定の場合にも、スマートミキシングを最適化することができる。

　図１４は、実施形態のミキシング装置１を適用したミキシングシステム１００の概略図である。ミキシング装置１は、ＦＰＧＡ、ＰＬＤ（Programmable Logic Device）などのロジックデバイス１０１で実現可能である。上述した構成のミキシング装置１Ａ～１Ｃは、演算処理が比較的簡易なので、ロジックデバイス１０１に内蔵されるメモリ１０２で十分機能するが、別途、メモリを設けてもよい。

　ミキシング装置１に、ユーザ入出力装置２と、表示装置３と、オーディオ信号入力装置４と、スピーカ６が接続されている。ミキシング装置１とスピーカ６の間にアンプ５が挿入されていてもよい。ユーザ入出力装置２は、パーソナルコンピュータ（ＰＣ）などの情報処理端末である。ユーザ入出力装置２には、絶対スペクトルの上限閾値Ｆ_H[ｉ，ｋ]と下限閾値Ｆ_L[ｉ，ｋ]、相対スペクトルの上限閾値Ｈ_H[ｉ，ｋ]と下限閾値Ｈ_L[ｉ，ｋ]などのパラメータを設定入力するボックスが表示されて、ユーザ入力を可能にする。

　表示装置３は、液晶、有機エレクトロルミネッセンス等のモニタディスプレイである。表示装置３に、絶対スペクトルＦｖ [ｉ，ｋ]、相対スペクトルＨｖ [ｉ，ｋ]、vivid信号などを表示することで、ミキシングを行うユーザは、入力音のスペクトルと設定パラメータの状態を認識し、調整することができる。

　オーディオ信号入力装置４は、たとえばマイク４ａ、４ｂであり、優先音となるオーディオ信号と非優先音となるオーディオ信号がミキシング装置１に入力される。ミキシング装置１によってミキシングされた信号は、アンプ５で増幅され、スピーカ６から出力される。

　実施形態のミキシング装置１を用いることで、以下の効果を奏することができる。
（１）優先音の明瞭度を上げるという効果をできるだけ保ったまま、非優先音に欠落感（音質の劣化）が生じることを抑制できる。
（２）単純な計算の組み合わせで実現可能なため、ソフトウエアとして実装した場合に計算負荷が軽い。また、ＦＰＧＡなどのプログラマブルなロジックデバイスへの実装に適している。ソフトウエアとして実装する場合は、図１０の制御信号生成フローを含む実施形態のミキシング装置１の各構成要素の機能（平滑処理、ゲイン導出処理、乗算処理、加算処理）を実行するプログラムをユーザ端末等の情報処理装置にインストールしてもよい。
（３）優先音として、スピーチ、ボーカル、歌声などの音声、楽器音など、多種多様の音源に対応可能である。
（４）コンサート会場やレコーディングスタジオにおける業務用ミキシング装置だけではなく、アマチュア用のミキサー、ＤＡＷ（Digital Audio Workstation）、スマートフォン用のアプリケーション、会議システム等にも応用可能である。
（５）vivid信号は、ミキシング以外にも一つの入力オーディオ信号に対する簡易的なかぶり除去機能ももつ。
（６）優先音の立ち上がりが良好になる。

　本発明について、特定の構成例に基づいて説明してきたが、本発明は多様な変形、置換等を含む。たとえば、図３、図５、及び図８において、制御信号に基づくゲイン調整がされた信号の加算処理と、周波数時間変換部１６による時間領域信号への変換処理の順序を逆にしてもよい。すなわち、優先的混合の有無に応じてゲイン調整された優先音と非優先音を個別に時間領域信号に変換した後に、加算してもよい。

　信号処理部１５Ａ～１５Ｃの出力として、必ずしも加算した後の混合信号を出力する必要はなく、優先的混合の有無に応じてゲイン調整がされた優先音と非優先音の時間領域信号を、それぞれ個別に出力してもよい。

　信号処理部１５Ａ～１５Ｃの出力として、優先的混合の有無に応じてゲイン調整された優先音と非優先音の他に、優先音の原音、非優先音の原音、優先音の原音とゲイン調整後の信号との差分、非優先音の原音とゲイン調整後の信号との差分等を出力してもよい。この場合、信号処理部１５からの個別の出力を外部のミキサー（たとえば従来型のミキサー）に入力して、さらなるミキシング操作を行ってもよい。

　図１４のシステムにおいても同様に、ミキシング装置１の出力は優先的混合の有無に応じてゲイン調整された優先音と非優先音の混合音に限定されない。ゲイン調整された時間領域の優先音信号と非優先信号をアンプに５に入力する前に、他の外部ミキサー等でさらなる処理を行った後にアンプ５に入力してもよい。

　この出願は、２０１８年４月１７日に出願された日本国特許出願第２０１８－０７８９８１号に基づき、その優先権を主張するものであり、その全内容は本件出願中に含まれる。

１、１Ａ～１Ｃ　ミキシング装置
１１　信号入力部
１２　周波数解析部
１５、１５Ａ～１５Ｃ　信号処理部
１６　周波数時間変換部
１７　信号出力部
１８　周波数軸変換部
１９　ゲイン導出部
２１　周波数軸の逆変換部
１５０、２５０　制御信号生成部
１５１、２５１　時間方向平滑化部
１５２、２５２　周波数方向平滑化部
１５３、２５３　周波数方向平滑化部
１５４、２５４　減算部（または比計算部）

Claims

　時間周波数平面上の第１信号と第２信号のミキシング装置であって、
　前記第１信号の増幅と前記第２信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、
　前記制御信号に基づいて、前記第１信号を増幅させる第１ゲインと前記第２信号を減衰させる第２ゲインを導出するゲイン導出部と、
を有し、
　前記制御信号は、少なくとも第１の値と、前記第１の値と異なる第２の値をとり、前記第１の値は周波数軸上で一定帯域幅を超えて連続せず、
　前記ミキシング装置は、前記制御信号が前記第１の値を示すときは、前記第１信号と前記第２信号に前記優先的混合を適用し、前記制御信号が前記第２の値を示すときは、前記第１信号と前記第２信号に単純加算を適用することを特徴とするミキシング装置。
　前記制御信号生成部は、
　前記時間周波数平面上の前記第１信号の強度に対して第１の周波数処理を行って前記第１信号の絶対量を表わす第１スペクトルを取得する第１の周波数方向処理部と、
　前記第１スペクトルに対して、第２の周波数処理を行って前記第１スペクトルの局所的な変動を表わす第２スペクトルを取得する第２の周波数方向処理部と、
　前記第１スペクトルと前記第２スペクトルに基づいて前記制御信号を生成する信号生成器と、
を有することを特徴とする請求項１に記載のミキシング装置。
　前記信号生成器は、前記第１スペクトルと前記第２スペクトルに閾値処理を行い、前記第１スペクトルの第１の閾値処理結果と、前記第２スペクトルの第２の閾値処理結果のいずれか小さい方を前記制御信号として出力することを特徴とする請求項２に記載のミキシング装置。
　前記信号生成器は、前記第１スペクトルが第１閾値以上のときに前記第１の値をとり第２閾値よりも小さいときに前記第２の値をとる第１制御信号と、前記第２スペクトルが第３閾値以上のときに前記第１の値をとり第４閾値よりも小さいときに前記第２の値をとる第２制御信号を生成し、前記第１制御信号と前記第２制御信号のいずれか小さい方を前記制御信号として出力することを特徴とする請求項３に記載のミキシング装置。
　前記信号生成器は、前記第１信号と前記第２信号の状態に応じて、前記第１スペクトルと前記第２スペクトルの適用の有無を切り替えることを特徴とする請求項２に記載のミキシング装置。
　前記信号生成器は、前記第１信号が無音または微弱なときは、前記第２スペクトルだけを用いることを特徴とする請求項５に記載のミキシング装置。
　ユーザによる前記第１スペクトルの適用と前記第２スペクトルの適用の有無を選択可能にするユーザインタフェース、
をさらに有し、
　前記信号生成器は、前記ユーザインタフェースを介した入力にしたがって、前記第１スペクトルと前記第２スペクトルの適用の有無を実行する、
請求項５に記載のミキシング装置。
　前記制御信号生成部は、
　前記時間周波数平面上の前記第１信号の強度信号を周波数方向に反復的に反転させて透過させるバンドパスフィルタと、
　前記バンドパスフィルタの出力に基づいて前記制御信号を生成する信号生成器と、
を有することを特徴とする請求項１～７のいずれか１項に記載のミキシング装置。
　前記制御信号生成部は、線形周波数軸を聴覚ベースの軸に変換する周波数軸変換部、
をさらに有し、前記聴覚ベースの軸で前記制御信号を生成することを特徴とする請求項１～８のいずれか１項に記載のミキシング装置。
　前記制御信号は、前記第１の値と前記第２の値の間の第３の値をとり、
　前記第３の値に応じて、前記優先的混合の程度が調整されることを特徴とする請求項１～９のいずれか１項に記載のミキシング装置。
　時間周波数平面上の第１信号と第２信号のミキシング方法であって、
　前記第１信号の増幅と前記第２信号の減衰とを含む優先的混合を行うか否かを示す制御信号として、少なくとも第１の値と、前記第１の値と異なる第２の値をとり、前記第１の値が周波数軸上で一定帯域幅を超えて連続しない信号を生成し、
　前記制御信号に基づいて、前記第１信号を増幅させる第１ゲインと前記第２信号を減衰させる第２ゲインを導出し、
　前記制御信号が前記第１の値を示すときは、前記第１信号と前記第２信号に前記優先的混合を適用し、前記制御信号が前記第２の値を示すときは、前記第１信号と前記第２信号に単純加算を適用する、
ことを特徴とするミキシング方法。
　時間周波数平面上の第１信号と第２信号のミキシング処理をコンピュータに実行させるミキシングプログラムであって、前記コンピュータに、
　前記第１信号の増幅と前記第２信号の減衰とを含む優先的混合を行うか否かを示す制御信号として、少なくとも第１の値と前記第１の値と異なる第２の値をとり、前記第１の値が周波数軸上で一定帯域幅を超えて連続しない信号を生成する手順と、
　前記制御信号に基づいて、前記第１信号を増幅させる第１ゲインと前記第２信号を減衰させる第２ゲインを導出する手順と、
　前記制御信号が前記第１の値を示すときは、前記第１信号と前記第２信号に前記優先的混合を適用し、前記制御信号が前記第２の値を示すときは、前記第１信号と前記第２信号に単純加算を適用する手順と、
を実行させることを特徴とするミキシングプログラム。