WO2021059718A1

WO2021059718A1 - 信号処理装置、信号処理方法及びプログラム

Info

Publication number: WO2021059718A1
Application number: PCT/JP2020/028423
Authority: WO
Inventors: 高橋　直也; 福井　隆郎
Original assignee: ソニー株式会社
Priority date: 2019-09-24
Filing date: 2020-07-22
Publication date: 2021-04-01
Also published as: JPWO2021059718A1; CN114467139A; DE112020004506T5; KR20220066886A; US20220375485A1

Abstract

複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部とを有する信号処理装置である。図１

Description

信号処理装置、信号処理方法及びプログラム

　本開示は、信号処理装置、信号処理方法及びプログラムに関する。

　複数の音源からの音が含まれる混合音信号から、目的とする音源の音の信号を抽出する音源分離技術が知られている（例えば、特許文献１を参照のこと）。また、低域成分の信号から高域成分を生成し、得られた高域成分を低域成分の信号に加算することで、より広い周波数帯域の信号を生成する周波数帯域拡張（拡大）技術が提案されている（例えば、特許文献２を参照のこと）。

国際公開２０１８／０４７６４３号

国際公開２０１５／０７９９４６号

　この分野では、適切な周波数帯域拡張処理等が行われることが望まれる。

　本開示は、適切な周波数帯域拡張処理等が行われる信号処理装置、信号処理方法及びプログラムを提供することを目的の一つとする。

　本開示は、例えば、
　複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
　音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
　を有する信号処理装置である。

　本開示は、例えば、
　音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
　帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
　信号処理方法である。

　本開示は、例えば、
　音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
　帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
　信号処理方法をコンピュータに実行させるプログラムである。

図１は、第１の実施形態に係る信号処理装置の構成例を示すブロック図である。図２は、第１の実施形態に係る帯域拡張部の動作例を説明する際に参照される図である。図３は、第２の実施形態に係る信号処理装置の構成例を説明する際に参照される図である。図４は、第２の実施形態に係る信号処理装置において行われる処理を説明する際に参照される図である。図５は、第２の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。図６は、第３の実施形態に係る信号処理装置の構成例を説明する際に参照される図である。図７は、第３の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。図８は、第３の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜実施形態において考慮すべき問題＞
＜第１の実施形態＞
＜第２の実施形態＞
＜第３の実施形態＞
＜変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜実施形態において考慮すべき問題＞
　始めに、本開示の理解を容易とするために、実施形態において考慮すべき問題についての説明がなされる。上述したように、周波数帯域拡張処理（以下、帯域拡張処理と適宜、略称される）が行われる装置が知られている。帯域制限された音源の帯域を拡張する際、楽器など音源の種類によって周波数包絡（スペクトル包絡）が異なるため、正しく帯域拡張処理を行うことが困難であった。例えば、シンバル、パーカッションなどの打楽器や尺八、三味線、琴といった和楽器は非常に高い周波数まで成分を含むのに対し、ピアノやバイオリンなどの楽器は高周波に行くにつれての減衰が大きくなる特性がある。各音源が時間的にオーバラップしていない場合は、各時刻において音源の種類を推定し、種類に応じて帯域拡張処理の振る舞い（処理内容）を適宜、変えることは可能であるが、音楽などの場合、一般的に複数の種類の音源が同時になるため、音源の種類に応じて適切な帯域拡張処理を行うことが困難であった。

　また、近年４８ｋＨｚより大きいサンプリングレートをもつハイレゾリューションオーディオ（以下、ハイレゾリューション音源と適宜、称する）が普及している。ハイレゾリューション音源の制作の際、ボーカルなどいくつかの音声はハイレゾリューション音源で収録されているが、多くの楽器は４８ｋＨｚ以下のサンプリングレートであるスタンダードレゾリューションオーディオ（以下、スタンダードレゾリューション音源と適宜、称する）で収録されていることがあり、再度のマスタリング工程（リマスタリング）ですべての楽器の音をハイレゾリューション化したいという要求がある。この際、ハイレゾリューション収録された音源は手を加えずに、ハイレゾリューション収録されていない音源のみに帯域拡張処理を適用することが好ましいが、ミキシング工程ですべての音源の音が混ざってしまうため、再度のマスタリング工程で音源ごとに帯域拡張処理を行うか否かを選択できない問題があった。本開示は、これらの点に鑑みてなされたものである。以下、本開示の詳細についての説明がなされる。

＜第１の実施形態＞
［第１の実施形態に係る信号処理装置］
（構成例）
　図１は、第１の実施形態に係る信号処理装置（信号処理装置１）の構成例を示すブロック図である。信号処理装置１は、例えば、音源分離部１１と、帯域拡張部１２と、加算部１３とを有している。本実施形態では、音源分離部１１に複数（例えば、Ｎ（Ｎは自然数）個）の音源の音（信号）が混合された混合音信号ｘが入力される。信号処理装置１は、音源の数に対応するＮ個の帯域拡張部（帯域拡張部１２₁、帯域拡張部１２₂・・・帯域拡張部１２_N）を有している。なお、個々の帯域拡張部を区別する必要がない場合には、帯域拡張部は、帯域拡張部１２と適宜、総称される。

　音源分離部１１は、混合音信号ｘに対して音源分離処理を適用することにより、各音源の種類に対応する信号である音源分離信号ｓ₁、ｓ₂・・ｓ_Nを生成する。音源分離信号ｓ₁が帯域拡張部１２₁に供給される。音源分離信号ｓ₂が帯域拡張部１２₂に供給される。音源分離信号ｓ_Nが帯域拡張部１２_Nに供給される。

　音源分離部１１により行われる音源分離処理としては特定の処理に限定されるものでないが、例えば、ＤＮＮ（Deep Neural Networks）を用いたマルチチャネルウィナーフィルタ（ＭＷＦ（Multi Channel Wiener Filter））ベースの音源分離処理を適用することができる他、上述した特許文献１に記載された音源分離処理を適用することができる。特許文献１に記載された音源分離処理は、概略的には、時間的に異なる性質の出力をもつ異なる音源分離方式（具体的には、ＤＮＮとＬＳＴＭ（Long Short Term Memory））を用いて振幅スペクトルを推定し、推定結果を所定の結合パラメータを用いて結合することにより音源分離信号を生成する処理である。勿論、音源分離部１１により上述した音源分離処理とは異なる音源分離処理が行われても良い。

　帯域拡張部１２は、音源分離部１１により分離されたそれぞれの音源分離信号ｓに対して帯域拡張処理を適用する。帯域拡張部１２は、例えば、低域の信号成分である音源分離信号ｓを入力信号とし、当該音源分離信号ｓに対して帯域拡張処理を施して、その結果得られる出力信号を、低域成分を含み、且つ、帯域が拡張された高域成分を含む出力信号ｊ（出力信号ｊ₁、出力信号ｊ₂・・出力信号ｊ_N）として出力する。帯域拡張部１２は、音源分離信号ｓに対して公知の帯域拡張処理、例えば、上述した特許文献２に記載された帯域拡張処理を適用する。なお、個々の帯域拡張部１２には、どの種類の音源分離信号ｓが入力されるかが対応づけられている。

　なお、以下では、帯域拡張処理により拡張しようとする周波数成分の最も周波数が低い側の端を拡張開始帯域とし、拡張開始帯域よりも周波数が高い帯域の信号を高域成分と称するとともに、拡張開始帯域よりも周波数が低い帯域の信号を低域成分と適宜、称することとする。

　加算部１３は、帯域拡張部１２から出力される出力信号ｊ（具体的には、出力信号ｊ₁、出力信号ｊ₂・・出力信号ｊ_N）を加算して、合成出力信号Ｓを生成して出力する。本実施形態では、信号処理装置１の出力である帯域拡張音源信号が合成出力信号Ｓとされている。

（全体の動作例）
　次に、信号処理装置１で行われる動作例についての説明がなされる。混合音信号ｘが音源分離部１１に入力される。音源分離部１１は、混合音信号ｘに対して音源分離処理を適用することにより音源分離信号ｓを生成して出力する。帯域拡張部１２は、音源分離信号ｓに対して帯域拡張処理を適用することにより出力信号ｊを生成して出力する。加算部１３は、各出力信号ｊを加算することにより合成出力信号Ｓを生成して出力する。

（帯域拡張部の動作例）
　ところで、上述した特許文献２に記載の帯域拡張処理は、混合音を前提にしているため、音源の属性、具体的には、音源の種類に応じた最適な帯域拡張処理を行うことについては考慮されていない。例えば、ドラムのシンバルなどは高い周波数まで包絡が減衰せずに伸びる。そこで、本実施形態では、音源の種類毎に最適な帯域拡張処理を行うために、音源の種類毎に、推定する高域成分（高周波帯域）の周波数包絡を設定する。具体的には、音源の種類に対応した帯域拡張処理のパラメータが設定され、当該パラメータを用いた帯域拡張処理が行われる。音源の種類（例えば、シンバル音）のみを教師データとして学習させられた高周波帯域を推定する機器が帯域拡張部として適用されても良い。

　図２は、音源の種類に応じた周波数包絡の一例を示す。図２の横軸は周波数（Ｈｚ）を示し、縦軸は音圧（ｄＢ）を示す。また、図２のｆ１は拡張開始帯域を示す。また、図２における拡張開始帯域ｆ１以降の周波数包絡ＦＥ１は例えば音源がボーカルの周波数包絡を模式的に示しており、拡張開始帯域ｆ１以降の周波数包絡ＦＥ２は例えば音源がシンバルの周波数包絡を模式的に示している。ボーカルに対応する帯域拡張部１２には、周波数包絡ＦＥ１を生成するためのパラメータが設定されている。また、シンバルに対応する帯域拡張部１２には、周波数包絡ＦＥ２を生成するためのパラメータが設定されている。これにより、各帯域拡張部１２が自身に入力される音源の属性に応じた適切な帯域拡張処理を行うことができる。なお、パラメータは、帯域拡張処理の内容に応じて適切に設定される。

＜第２の実施形態＞
　次に、本開示の第２の実施形態についての説明がなされる。なお、第１の実施形態で説明された事項は、特に断らない限り第２の実施形態に対しても適用することができる。また、第１の実施形態と同一または同質の構成については同一の参照符号が付され、重複した説明が適宜、省略される。

［第２の実施形態の概要］
　各音源分離信号に対して独立に帯域拡張処理が行われる場合、帯域拡張処理のアルゴリズムによっては、合成出力信号Ｓの高域成分が不自然に強調されてしまうことがある。例えば、帯域拡張処理のアルゴリズムが、振幅スペクトルまたはその包絡のみを推定し、位相は一定の方法で複製する（例えば低域成分（低周波数域）と同じものを使う）アルゴリズムで、かつ音源分離アルゴリズムも分離音源ごとに位相が大きく変わらない場合、帯域拡張された各音源分離信号の高域信号は全て似た位相を持つ。したがって、例え各音源分離信号の振幅スペクトルまたはその包絡が正しく推定されていても、高域信号は全て似た位相を持つことから、合成出力信号Ｓの高域成分が本来よりも不自然に強調される虞がある。本実施形態は、係る事項に対応した構成を有する信号処理装置である。

［第２の実施形態に係る信号処理装置］
（構成例）
　図３は、第２の実施形態に係る信号処理装置（信号処理装置２）の構成例を示すブロック図である。信号処理装置２は、加算部１３の後段に周波数包絡整形部２１を有する点が信号処理装置１と異なっている。本実施形態では、周波数包絡整形部２１の出力が帯域拡張音源信号とされる。

　周波数包絡整形部２１は、加算部１３から出力される合成出力信号Ｓの周波数包絡を整形する。例えば、拡張開始帯域（帯域拡張処理により拡張された周波数の下限）ｆ１前後に所定の不連続性が検出された場合に、合成出力信号Ｓの周波数包絡を整形する。所定の不連続性の検出は、本実施形態では周波数包絡整形部２１により行われるが、他の機能ブロックによって行われても良い。周波数包絡整形部２１により周波数包絡が整形されることにより、拡張された高域成分の振幅が抑制され、高域成分が不自然に強調されてしまうことを防止することができる。

（動作例）
　本実施形態では、拡張開始帯域ｆ１前後の信号エネルギーの差分が所定以上である場合に不連続性があるものと検出される。図４が参照されつつ、具体例についての説明がなされる。

　図４の横軸は周波数（Ｈｚ）を示し、縦軸は音圧（ｄＢ）を示す。また、図４のｆ１は拡張開始帯域を示す。また、図４における拡張開始帯域ｆ１以降の周波数包絡（周波数包絡ＦＥ３～ＦＥ６）は、合成出力信号Ｓの高域成分の周波数包絡の例を示している。

　例えば、図４に示すように、拡張開始帯域ｆ１の前後に所定の周波数帯域（ｆ１－Δｆ）、（ｆ１＋Δｆ）が設定されて、各周波数帯域のエネルギーｅ（図４で斜線が付された箇所）が周波数包絡毎に求められる。低域側の周波数帯域におけるエネルギーをｅ_L、高域側の周波数帯域におけるエネルギーをｅ_Hとし、不連続性を検出するための閾値をＴｈとした場合に、下記の式１を満たす場合には拡張開始帯域ｆ１の前後に不連続性が存在すると判断される。
（ｅ_H／ｅ_L）＞Ｔｈ　・・・（１）

　図４に示す例では、合成出力信号Ｓの高域成分の周波数包絡が周波数包絡ＦＥ３である場合に上述した式１を満たすことから、不連続性が存在すると検出される。周波数包絡ＦＥ３だと高域成分が不自然に強調されることから、周波数包絡整形部２１により周波数包絡を整形する処理、具体的には、高域成分の振幅を抑制する処理が行われる。振幅を抑制する処理は、高域成分の振幅を一律に抑制しても良いし、所定の閾値より大きい振幅のみを抑制するようにしても良い。

　一方、図４に示す例では、合成出力信号Ｓの高域成分の周波数包絡が周波数包絡ＦＥ４～ＦＥ６である場合に上述した式１を満たさないことから、不連続性が存在しないと判断される。この場合には、高域成分が不自然に強調される虞がないことから、周波数包絡整形部２１による処理は行われずに、合成出力信号Ｓが周波数包絡整形部２１から出力される。

　以上説明した第２の実施形態によれば、帯域拡張処理が行われた場合に、拡張開始帯域以降の高域成分が不自然に強調されてしまうことを防止することができる。

（変形例）
　続いて、第２の実施形態に係る信号処理装置の変形例についての説明がなされる。図５は、変形例に係る信号処理装置（信号処理装置２Ａ）の構成例を示すブロック図である。

　信号処理装置２Ａは、周波数包絡整形部２１を有しておらず、その代わりに、位相回転部２２を有している。位相回転部２２は、帯域拡張部１２と加算部１３との間に設けられている。具体的には、信号処理装置２Ａは、帯域拡張部１２に対応した数の位相回転部２２（位相回転部２２₁、２２₂、・・・２２_N）を有している。各位相回転部２２からの出力信号が加算部１３により加算される。

　位相回転部２２は、帯域拡張部１２により帯域拡張された出力信号ｊの高域成分を、音源に応じて異なる位相をもつように位相を回転（変更）する。位相回転部２２は、例えば、振幅に影響を与えることなく位相をシフトできるフィルタ、具体的には、オールパスフィルタにより構成される。

　位相回転部２２により、例えば位相がランダムに回転させられるので、帯域拡張音源信号の高域成分が不自然に強調されてしまうことを防止することができる。また、人間の聴覚特性は高域での位相の変化に鈍感であるため、ユーザに聴感上の違和感を与えてしまうことなく、帯域拡張音源信号の高域成分が不自然に強調されてしまうことを防止することができる。

＜第３の実施形態＞
　次に、本開示の第３の実施形態についての説明がなされる。なお、第１、第２の実施形態で説明された事項は、特に断らない限り第３の実施形態に対しても適用することができる。また、第１、第２の実施形態と同一または同質の構成については同一の参照符号が付され、重複した説明が適宜、省略される。

［第３の実施形態の概要］
　上述したように、ハイレゾリューション音源（例えば、拡張開始帯域ｆ１以降の高域成分を含む音源）とスタンダードレゾリューション音源（例えば、拡張開始帯域ｆ１以降の高域成分を含まない音源）が含まれる音源（以下、混合音源と適宜、称する）のうち、スタンダードレゾリューション音源のみに対して帯域拡張処理を適用したい要求が存在する。本実施形態は、係る要求に対応する実施形態である。なお、混合音源の帯域は拡張開始帯域ｆ１以降の高域を含む。

［第３の実施形態に係る信号処理装置］
（構成例）
　図６は、第３の実施形態に係る信号処理装置（信号処理装置３）の構成例を示すブロック図である。信号処理装置３は、信号処理装置１と同様に、音源分離部１１と、帯域拡張部１２（例えば、帯域拡張部１２₁、１２₂）と、加算部１３とを有している。音源分離部１１には混合音源の信号（以下、混合音源信号ｘ₁と適宜、称する）が入力される。信号処理装置３は、混合音源信号ｘ₁が音源分離部１１だけでなく加算部１３に入力される系を有している点が、信号処理装置１と異なっている。

（動作例）
　続いて、信号処理装置３の動作例についての説明がなされる。混合音源信号ｘ₁が音源分離部１１により音源種類毎に分離されることにより、音源分離信号ｓが生成される。音源種類毎の音源分離信号ｓのうち、ハイレゾリューション録音されていない音源分離信号（本例では、音源分離信号ｓ₁、ｓ₂）のみが、対応する帯域拡張部１２₁、１２₂のそれぞれに供給される。帯域拡張部１２₁は、帯域拡張処理を行うことにより音源分離信号ｓ₁の帯域を拡張する。また、帯域拡張部１２₂は、帯域拡張処理を行うことにより音源分離信号ｓ₂の帯域を拡張する。

　帯域拡張部１２₁は、帯域拡張処理を適用して得られる出力信号のうち、拡張開始帯域ｆ１以降の高域成分のみの信号である拡張帯域信号ｐ₁を加算部１３に出力する。また、帯域拡張部１２₂は、帯域拡張処理を適用して得られる出力信号のうち、拡張開始帯域ｆ１以降の高域成分のみの信号である拡張帯域信号ｐ₂を加算部１３に出力する。ここで、帯域拡張部１２₁、１２₂が拡張帯域信号のみを加算部１３に出力するのは、音源分離信号ｓ₁、ｓ₂の低域成分は、加算部１３に入力される混合音源信号ｘ₁に含まれているからである。

　加算部１３は、拡張帯域信号ｐ₁、ｐ₂および混合音源信号ｘ₁を加算することにより帯域拡張音源信号を生成して出力する。

　以上説明した第３の実施形態によれば、ハイレゾリューション録音された音源信号の高域成分は変えることなく、ハイレゾリューション録音されていない音源信号のみを帯域拡張することが可能となる。なお、上述した説明では、ハイレゾリューション録音されていない音源分離信号として音源分離信号ｓ₁、ｓ₂が例示されたが、混合音源信号ｘ₁により多くのハイレゾリューション録音されていない音源分離信号が含まれていても良い。

（変形例１）
　図７は、第３の実施形態に係る信号処理装置の変形例を示すブロック図である。上述した例では、信号処理装置３の音源分離部１１が、ハイレゾリューション音源を含む音源を音源分離できる性能を有している例を想定しているが、音源分離部１１の性能がハイレゾリューション音源を含む音源を音源分離できない場合も想定される。

　この場合には、図７に示すように、本変形例に係る信号処理装置（信号処理装置３Ａ）の音源分離部１１は、混合音源信号ｘ₁に対してダウンサンプリング処理を適用するダウンコンバータ１１Ａを有している。ダウンコンバータ１１Ａにダウンサンプリングを行うことにより、混合音源信号ｘ₁に対する音源分離部１１による音源分離部１１が可能となる。係る構成の場合は、例えば、帯域拡張部１２₁がアップコンバータ１２_A1を有し、アップサンプリングが行われた後に帯域拡張部１２₁による帯域拡張処理が行われる。同様に、帯域拡張部１２₂がアップコンバータ１２_A2を有し、アップサンプリングが行われた後に帯域拡張部１２₂による帯域拡張処理が行われる。アップコンバータ１２_A1、１２_A2による処理は、帯域拡張部１２₁、１２₂のそれぞれの前段で行われても良い。

（変形例２）
　図８は、第３の実施形態に係る信号処理装置の他の変形例を示すブロック図である。本変形例に係る信号処理装置（信号処理装置３Ｂ）の音源分離部１１は、判定部１１Ｂを有している。なお、信号処理装置３Ｂの音源分離部１１は、ハイレゾリューション音源を含む音源を音源分離できる性能を有している例を想定している。

　信号処理装置３Ｂでは、混合音源信号ｘ₁が、加算部１３に供給されずに音源分離部１１に対してのみ供給される。音源分離部１１は、混合音源信号ｘ₁に対して音源分離処理を行うことにより、音源分離信号ｓ₁、ｓ₂およびハイレゾリューション録音された音源信号に対応する音源分離信号ｈｍを生成する。判定部１１Ｂは、各音源分離信号に対して、後段で帯域拡張処理を適用するか否かを判定する。判定部１１Ｂは、音源分離信号に高域成分が含まれる場合には当該音源分離信号に帯域拡張処理を適用する必要がないと判定し、当該音源分離信号を加算部１３に出力する。本変形例では、音源分離信号ｈｍが、帯域拡張処理を適用する必要がないと判定部１１Ｂにより判定され、音源分離部１１から加算部１３に供給される。

　また、判定部１１Ｂは、音源分離信号に高域成分が含まれない場合には当該音源分離信号に帯域拡張処理を適用する必要があると判定し、当該音源分離信号を帯域拡張部１２に出力する。本変形例では、音源分離信号ｓ₁、ｓ₂が、帯域拡張処理を適用する必要があると判定部１１Ｂにより判定され、帯域拡張部１２₁、１２₂のそれぞれに供給される。

　帯域拡張部１２₁は、音源分離信号ｓ₁に対する帯域拡張処理を適用することにより出力信号ｊ₁を生成する。信号処理装置３Ｂに係る構成では、混合音源信号ｘ１が加算部１３に供給されないことから、帯域拡張部１２₁は、拡張帯域信号ではなく低域成分を含む出力信号ｊ₁を加算部１３に出力する。また、帯域拡張部１２₂は、音源分離信号ｓ₂に対する帯域拡張処理を適用することにより出力信号ｊ₂を生成する。信号処理装置３Ｂに係る構成では、混合音源信号ｘ₁が加算部１３に供給されないことから、帯域拡張部１２₂は、拡張帯域信号ではなく低域成分を含む出力信号ｊ₂を加算部１３に出力する。加算部１３は、音源分離信号ｈｍ、出力信号ｊ₁および出力信号ｊ₂を加算する。

　本変形例に係る信号処理装置３Ｂによれば、上述した信号処理装置３の構成に基づいて得られる効果と同様の効果を得ることができる。また、本変形例に係る信号処理装置３Ｂによれば、帯域拡張処理を適用すべきか否かが自動で判定されるので、例えば、リマスタリング工程で、ユーザがどの音源分離信号に対して帯域拡張処理を適用すべきかを事前に把握して帯域拡張処理を適用するか否かを選択する必要がなくなる。

＜変形例＞
　以上、本開示の複数の実施形態について説明したが、本開示は、上述した実施形態に限定されることはなく、本開示の趣旨を逸脱しない範囲で種々の変形が可能である。

　上述した実施形態では、音源の属性として音源の種類を挙げたか、音源の信号的な性質等、他の属性であっても良い。

　音源分離部としてＤＮＮやＬＳＴＭが適用される場合に、一般にネットワークの入力は混合音信号の振幅スペクトルとされ、教師データは、目的とする音源の音の振幅スペクトルとされるが、学習における教師データとして音源分離後の音源分離信号が用いられても良い。

　本開示は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成を採用することもできる。

　また、本開示は、装置、方法、プログラム、システム等、任意の形態により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、以下の構成も採ることができる。
（１）
　複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
　前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
　を有する信号処理装置。
（２）
　前記帯域拡張部は、前記音源分離信号の属性に応じた周波数帯域拡張処理を適用する
　（１）に記載の信号処理装置。
（３）
　音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算する加算部と、
　前記加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
　を有する
　（１）又は（２）に記載の信号処理装置。
（４）
　前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をｆ１とした場合に、ｆ１前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
　（３）に記載の信号処理装置。
（５）
　ｆ１前後の信号エネルギーの差分が所定以上である場合に前記不連続性があるものと検出される
　（４）に記載の信号処理装置。
（６）
　前記帯域拡張部の出力信号に対して位相を回転させる処理を適用する位相回転部を有する
　（１）又は（２）に記載の信号処理装置。
（７）
　前記位相回転部は、オールパスフィルタによって構成されている
　（６）に記載の信号処理装置。
（８）
　前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力する
　（１）に記載の信号処理装置。
（９）
　所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
　前記混合音信号と前記拡張帯域信号とを加算する加算部とを有し、
　前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
　（８）に記載の信号処理装置。
（１０）
　前記周波数帯域拡張処理が適用された前記音源分離信号と前記帯域拡張処理が適用されていない前記音源分離信号とを加算する加算部を有する
　（１）に記載の信号処理装置。
（１１）
　前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定する判定部を有する
　（１０）に記載の信号処理装置。
（１２）
　前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
　（１１）に記載の信号処理装置。
（１３）
　音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
　帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
　信号処理方法。
（１４）
　音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
　帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
　信号処理方法をコンピュータに実行させるプログラム。

１，２，２Ａ，３，３Ａ，３Ｂ・・・信号処理装置
１１・・・音源分離部
１１Ａ・・・ダウンコンバータ
１２・・・帯域拡張部
１３・・・加算部
２１・・・周波数包絡整形部
２２・・・位相回転部

Claims

　複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
　前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
　を有する信号処理装置。
　前記帯域拡張部は、前記音源分離信号の属性に応じた周波数帯域拡張処理を適用する
　請求項１に記載の信号処理装置。
　音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算する加算部と、
　前記加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
　を有する
　請求項１に記載の信号処理装置。
　前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をｆ１とした場合に、ｆ１前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
　請求項３に記載の信号処理装置。
　ｆ１前後の信号エネルギーの差分が所定以上である場合に前記不連続性があるものと検出される
　請求項４に記載の信号処理装置。
　前記帯域拡張部の出力信号に対して位相を回転させる処理を適用する位相回転部を有する
　請求項１に記載の信号処理装置。
　前記位相回転部は、オールパスフィルタによって構成されている
　請求項６に記載の信号処理装置。
　前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力する
　請求項１に記載の信号処理装置。
　所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
　前記混合音信号と前記拡張帯域信号とを加算する加算部とを有し、
　前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
　請求項８に記載の信号処理装置。
　前記周波数帯域拡張処理が適用された前記音源分離信号と前記周波数帯域拡張処理が適用されていない前記音源分離信号とを加算する加算部を有する
　請求項１に記載の信号処理装置。
　前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定する判定部を有する
　請求項１０に記載の信号処理装置。
　前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
　請求項１１に記載の信号処理装置。
　音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
　帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
　信号処理方法。
　音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
　帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
　信号処理方法をコンピュータに実行させるプログラム。