WO2023286326A1

WO2023286326A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2023286326A1
Application number: PCT/JP2022/008820
Authority: WO
Inventors: 慶一大迫; 丈松井; 寛晃林; 隆郎福井
Original assignee: ソニーグループ株式会社
Priority date: 2021-07-15
Filing date: 2022-03-02
Publication date: 2023-01-19
Also published as: EP4373134A1; CN117652159A

Abstract

例えば、ハードウェアの規模およびコストの増加を抑えて入力信号に応じた信号処理を行うことができるようにする。　入力信号をフィルタリングするフィルタ処理部と、前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部とを有する情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　音楽、ゲーム、音声通話などのオーディオ信号をユーザに聴取させる際、イコライザや雑音除去などの信号処理を導入することで、聴取させる音を制御することができる。

　例えば、ゲームプレイ時においては、ゲーム再生音中に含まれる銃声や足音などのゲーム操作に必要な音を聞きやすくしたい場合がある。この場合、対象とする音の特定の周波数帯域を増幅または減衰させることで、聞きたい音を聴取しやすくすることができる。例えば、銃声音が含まれる周波数帯域を増幅させたり、銃声音が含まれない周波数帯域を減衰させたりすることで、銃声音を強調させて聞きやすくすることができる。

　また例えば、音声通話においては、空調音や電気ノイズなどの所望の音（例えば、対話音）以外の雑音が混入し、所望の音の聴取を妨げる場合がある。この場合、例えば、雑音の周波数帯域を減衰させることで雑音を除去して聞きやすくすることができる。

　このような音の制御を実現するために、現状においては、例えば、ユーザが聞きたい音または聞きたくない音に応じて、イコライザなどの音の制御機能を適宜、手動やプリセットなどにより調整している。しかしながら、この調整は煩雑であったり、音感がないと操作が難しかったりする。

　これに対し、下記の特許文献１には、音を自動的に制御する技術（具体的には、コンテキストに基づく周囲音の増強および音響ノイズキャンセル技術）について提案されている。特許文献１に開示されている技術は、音響ノイズキャンセリングの信号に、増幅または減衰させた周囲の信号を足し込むものであり、ノイズキャンセリングヘッドホンを想定としたものである。この処理は、具体的には、音響ノイズキャンセル技術と周囲音の周波数を変調させるフィルタの組み合わせで実現されている。

特開２０２０－１９７７１２号公報

　しかしながら、特許文献１に開示されている技術は、周囲音を取得するためにマイクロホンを必要としており、ハードウェアの規模およびコストが増加する問題がある。また、根本的に、ユーザ周囲の音の制御しかできず、例えば、ゲームや音声通話などの入力（再生）信号に対しては予め決められたイコライザなどの信号処理を施すのみである。したがって、入力信号に応じて音を制御することはできない。

　本開示は、ハードウェアの規模およびコストの増加を抑えて入力信号に応じた処理を行うことができる情報処理装置、情報処理方法およびプログラムを提案することを目的の一つとする。

　本開示は、例えば、
　入力信号をフィルタリングするフィルタ処理部と、
　前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部と
　を有する情報処理装置である。

　本開示は、例えば、
　入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
　処理を行う情報処理方法である。

　本開示は、例えば、
　入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
　処理をコンピュータに実行させるプログラムである。

図１は、一般的に使用されているイコライザの構成例を示す図である。図２は、音質調整の設定指示画面の表示例を示す図である。図３は、更新後のイコライザの表示例を示す図である。図４は、情報処理装置の機能ブロックの構成例を示す図である。図５は、ニューラルネットワークによる音源分離例を示す図である。図６は、情報処理装置のハードウェアの構成例を示す図である。図７は、情報処理装置による処理例を示すフローチャートである。図８は、フィルタ係数の算出処理例を示すフローチャートである。図９は、情報処理装置の他の機能ブロックの構成例を示す図である。図１０は、ニューラルネットワークによるフィルタ係数算出例を示す図である。図１１は、情報処理装置の他の機能ブロックの構成例を示す図である。図１２は、情報処理装置の他の機能ブロックの構成例を示す図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．背景＞
＜２．第１実施形態＞
＜３．第２実施形態＞
＜４．第３実施形態＞
＜５．第４実施形態＞
＜６．変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。なお、以下の説明において、実質的に同一の機能構成を有するものについては同一の符号を付し、重複説明を適宜省略する。

＜１．背景＞
　始めに、本開示の背景について説明する。図１は、一般的に使用されているイコライザの構成例を示している。例えば、ユーザは、自身が聞きたい音または聞きたくない音に応じてイコライザの各周波数帯域の利得（具体的には、Ｇａｉｎ値）をツマミ操作などにより調整することができる。内部の信号処理としては、ＩＩＲ（Infinite Impulse Response）フィルタやＦＩＲ（Finite Impulse Response）フィルタが一般的には用いられている。特に、ＩＩＲフィルタを使用した場合、入力から出力を得るまでの遅延時間が数百マイクロ秒～数ミリ秒程度であるため、体感的な音の遅れは全く感じられない。したがって、リアルタイムで音質調整が行えるため、ゲームや音声通話などのリアルタイム性が重要なアプリケーションで広く用いられている。

　しかしながら、このイコライザによる音質調整は、周波数帯域毎の利得値の微調整が煩雑であったり、さらには音感がないと操作が難しかったりするのが現状である。それに対して効果的な従来技術とその問題点については、先ほどの背景技術で説明した通りである。

　ところで、近年は、ＡＩ（Artificial Intelligence）技術を用いてオーディオ信号に含まれる特定の音の除去や抽出が可能となっている。例えば、下記の非特許文献１のように、予め定めた対象音を分離するニューラルネットワークを学習して構築し、その学習済みのニューラルネットワークを用いて音源分離を実現する技術が知られている。この技術を使用すると、ありとあらゆる音を入力信号から分離できるため、所望の音をダイレクトに聞くことができる。

　[非特許文献１]
　Stefan Uhlich others. "Improving music source separation based on deep neural networks through data augmentation and network blending." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017). 2017.

　しかしながら、非特許文献１に開示されている技術は、ニューラルネットワークの構造上、入力信号を数十ミリ秒～数百ミリ秒バッファリングすることが必要であり、これはすなわち出力信号に遅延が発生することを意味する。したがって、例えば、上述したようなリアルタイム性が重要なアプリケーションでは、この遅延が問題となるため、ニューラルネットワークによる音源分離技術を使用することができなかった。

　そこで、本開示では、これらの問題を解決し、自動で最適な音の制御が行われるようにすることでユーザによるイコライザの細かな調整などを不要とし、さらに、その出力を低遅延で行うことができるようにする。

＜２．第１実施形態＞
［２－１．アプリケーションの具体例］
　まず、第１実施形態に係るアプリケーションの具体例について説明する。なお、本実施形態では、ゲーム再生音の音質調整を行う場合を例にして説明する。図２は、音質調整の設定指示画面の表示例を示している。図示した例では、ゲーム中の画面に音質調整機能を取り入れたものとなっている。これにより、例えば、ゲーム中に音質調整が可能になっている。

　表示画面１において、具体的には、左側にゲーム画面２が表示され、右側にイコライザ３が表示されている。イコライザ３は、上述した一般的に使用されているものである。ユーザは、イコライザ３を操作することでゲームの出力信号の音質を調整することができる。具体的には、ユーザは、自身が聞きたい音または聞きたくない音に応じてイコライザ３の各周波数帯域の利得（Ｇａｉｎ値）の調整をツマミ操作（ツマミ位置を移動させる操作）などによって行うことができる。

　また、イコライザ３の下側には、イコライザ３（詳しくは、内部の周波数変調フィルタ）を自動調整するためのユーザ指示入力部４（「Ａｕｔｏ　Ｅｑｕａｌｉｚｅｒ」と表示されている部分）が表示されている。図中、「Ｇａｉｎ」と表示されている箇所は、ユーザに利得設定を指示させる利得設定部４１である。利得設定部４１は、具体的には、後述する「Ｓｏｕｎｄ　ｔｙｐｅ」で指定されている対象音源種類の音を増幅させるのか減衰させるのかをユーザに指定させるものである。例えば、「Ｓｏｕｎｄ　ｔｙｐｅ」でユーザが聞きたい音を指定する場合には「Ｕｐ（増幅）」を選択し、聞きたくない音を指定する場合には「Ｄｏｗｎ（減衰）」を選択する。なお、利得設定部４１は、単に増幅または減衰をユーザに選択させるものに限らず、＋○ｄＢ、－○ｄＢ（「○」は、所定の数値）など、増幅または減衰させるレベルを設定させるものであってもよい。

　「Ｓｏｕｎｄ　ｔｙｐｅ」と表示されている箇所は、ユーザに対象音源種類を指定させる対象音源指定部４２である。ここでいう対象音源種類とは、例えば、ユーザが制御したい音の種類のことである。具体的には、対象音源指定部４２は、聞きたい音または聞きたくない音の種別をユーザに選択させるものである。例えば、ゲーム中の「Ｆｏｏｔｓｔｅｐ（足音）」や「Ｇｕｎｓｈｏｔ（銃声）」の音を増幅して聞きたい場合や、「Ｗｉｎｄｎｏｉｓｅ（風雑音）」を減衰させたい場合など、様々なカテゴリを対象音源種類として用意しておくことができる。「Ｓｏｕｎｄ　ｔｙｐｅ」は、１つまたは２つ以上選択することが可能である。

　ここで、「Ｓｏｕｎｄ　ｔｙｐｅ」に対する「Ｇａｉｎ」の組み合わせは、本例では1組で記載しており、増幅および減衰のうちの何れか一方のみを選択するようになっている。ユーザによっては、足音増幅および風雑音減衰というような組み合わせも起こり得るため、これらの設定が可能となるように２組以上の設定項目を実装していてもよい。

　「Ｕｐｄａｔｅ　ｔｉｍｉｎｇ」と表示されている箇所は、ユーザに係数更新設定を指定させる係数更新設定部４３である。係数更新設定部４３は、具体的には、音質の自動調整を行うタイミング（時刻や間隔など）をユーザに指定させるものである。例えば、「Ａｕｔｏ」モードを選択すると、ゲームの音が鳴ってない区間や場面の切り替わる瞬間などにイコライザ３の調整を行う。これにより、ユーザが集中して聞いているゲーム音に対して違和感なくイコライザ３を変更することができるので、没入感を損なうことがない。

　また、「Ｎｏｎｅ」モードを指定すると、上述した「Ｇａｉｎ」または「Ｓｏｕｎｄ　ｔｙｐｅ」を指定した後（設定を変えた後）、直ちにイコライザ３のアップデートを行う。すなわち、ユーザ操作に応じて、すぐさま音質を変更することが可能となる。また、「Ｍａｎｕａｌ」モードを選択すると、指定間隔時間に応じて定期的なイコライザ３のアップデートを行う。これにより、常にイコライザ３のアップデートをかけ続けていたいというユーザの希望に応えることができる。例えば、０．５秒毎や２秒毎といった数値を設定することができる。ユーザ指示入力部４で指定された各種設定情報は、例えば、記憶領域に読み込み可能に記憶される。

　本アプリケーションでは、具体的には、ゲーム再生音のオーディオ信号を入力信号とし、その入力信号に対してユーザ指示入力部４で指定された設定に応じた信号処理（具体的には、フィルタリング）を行い、その出力信号をユーザが聴取できるようにする。また、信号処理の設定が更新された場合には、更新前後の違いを表す画像を表示デバイスに表示させる。例えば、図３に示すように、周波数帯域毎に変化した利得およびツマミ位置が判別できるように色分けして表示する。なお、図３に示す例では、色の違いを濃淡で表現している。具体的には、薄い色のツマミが更新前のツマミ位置を表し、濃い色のツマミが更新後、つまり現在のツマミ位置を表している。これにより、ユーザはイコライザが変化したということ（変化内容も含む）を簡単に把握することができる。なお、現在、どのような設定のイコライザか一目でわかるように、「足音を増幅」などの設定を示す表記を付してもよい。

［２－２．情報処理装置の構成例］
　図４は、第１実施形態に係る情報処理装置（情報処理装置１０）の機能ブロックの構成例を示している。情報処理装置１０は、例えば、上述したアプリケーションに適用可能な信号処理回路を実装するもの（具体的には、再生信号）である。情報処理装置１０は、入力信号（具体的には、オーディオ信号）に信号処理を施して音を制御する。オーディオ信号は、例えば、上述したゲーム、音声通話（例えば、ウェブ会議システム）などのアプリケーションから得られるものである。情報処理装置１０は、パーソナルコンピュータ、スマートフォン、タブレット端末、ゲーム機、スピーカ装置、ヘッドホン、イヤホン、スマート家電、テレビジョン、プレーヤ、レコーダ、電話機、車載器、監視装置または医療機器などのオーディオ信号を扱う種々の電子機器（具体的には、コンピュータ機器）で構成することができる。

　情報処理装置１０は、フィルタ処理部１１、音源分離係数選択部１２、音源分離部１３、周波数特性推定部１４、フィルタ係数算出部１５、係数更新部１６および画面表示更新部１７を有しており、上述した設定に応じた信号処理を行う。

　フィルタ処理部１１は、入力信号（具体的には、入力オーディオ信号）をフィルタリングして出力する。これにより、例えば、出力信号（具体的には、フィルタリング後のオーディオ信号）の周波数特性が変更される。フィルタ処理部１１は、具体的には、フィルタ回路（周波数変調フィルタ）を有しており、フィルタリングは、このフィルタ回路を用いて行われる。例えば、このフィルタ回路は、上述したＩＩＲフィルタまたはＦＩＲフィルタで実装することができる。つまり、フィルタリングは、ＩＩＲフィルタまたはＦＩＲフィルタを用いて行うことができる。なお、フィルタリングを行うフィルタ回路は、これに限らず、例えば、ＦＦＴ（Fast Fourier Transform）を行い、周波数領域に変換した信号の振幅スペクトルの利得を増幅または減衰し、ＩＦＦＴ（Inverse Fast Fourier Transform）して時間領域波形に戻す処理を行うものであってもよい。

　本実施形態では、具体的には、低遅延処理を行うためにＩＩＲフィルタを想定する。これにより、フィルタリングをリアルタイム処理とすることができ、上述したようなリアルタイム性が重要なアプリケーション、つまり、リアルタイム処理に問題なく適用することができる。なお、ユーザが体感し得ない低遅延処理が可能であれば、ＩＩＲフィルタ以外であってもリアルタイム処理が可能である。

　フィルタリングの設定（具体的には、フィルタ係数）の初期値は、周波数特性がフラットのもの、すなわち、入力信号がそのまま出力される性質を持つものでよい。または、前回使用した係数を保持しておき、再び同じ設定で使用してもよい。このように、フィルタリングの設定の初期値は、適宜、決めたものを用いることができる。フィルタ処理部１１から出力される出力信号は、後段に接続された他の信号処理モジュールや、スピーカ・ヘッドホンなどの出力（再生）デバイスなどに出力される。

　音源分離係数選択部１２および音源分離部１３は、音源分離に関する処理を行う。音源分離係数選択部１２は、設定されている対象音源種類に基づいて音源分離係数を選択する。対象音源種類は、例えば、上述したようにして指定されたもの（「Ｆｏｏｔｓｔｅｐ」や「Ｇｕｎｓｈｏｔ」などの音のカテゴリ）であり、文字による情報や数値パラメータとして音源分離係数選択部１２に入力される。

　音源分離係数選択部１２は、具体的には、音源分離部１３での音源分離処理に必要な係数群を、予めＨＤＤ（Hard Disk Drive）などの記憶領域に保存しておき、指定されている対象音源種類に基づき該当する係数をロードし、音源分離部１３に送る。この係数群は、具体的には、音源分離で分離し制御したい音のカテゴリ数分用意される必要がある。言い換えると、この音源分離係数さえ準備できれば、ありとあらゆる音を分離して制御することができるようになる。そのため、新たな音のカテゴリが現れた場合には、その係数をここに追加記録して対応することができる。

　音源分離部１３は、音源分離処理を実行する。この音源分離処理には、音源分離に関する推定アルゴリズムが用いられる。この推定アルゴリズムは、具体的には、入力信号（具体的には、入力オーディオ信号）から、指定されている対象音源種類の音を推定分離し、分離した音を推定結果として出力する。推定アルゴリズムとしては、例えば、ニューラルネットワークに基づく手法（具体的には、上述した非特許文献１に示されている手法）を採用することができる。例えば、対象音源種類の「Ｆｏｏｔｓｔｅｐ」をニューラルネットワークにより学習する場合、「Ｆｏｏｔｓｔｅｐ」の学習用の入力信号を大量（例えば、１０万～１００万）に用いて、その各入力信号から「Ｆｏｏｔｓｔｅｐ」の音を分離する学習を行う。この場合、学習後のニューラルネットワークのパラメータが、音源分離部１３で「Ｆｏｏｔｓｔｅｐ」の音源を分離するのに必要な係数（音源分離係数選択部１２がロードする係数）として保存されることになる。

　図５は、ニューラルネットワークに基づく音源分離例を示す。本処理では、まず、分離したい信号を含む入力信号を周波数変換し、その振幅スペクトルを入力信号ベクトルとする。このベクトルサイズは、周波数変換の変換長に依存しているため、例えば１０２４や２０４８などである。このベクトルをニューラルネットワークに入力し、音源分離係数選択部１２から送られる係数を用いた内部処理を経て推定結果としての出力信号ベクトルを得る。この出力信号ベクトルは、分離後の信号の振幅スペクトルである。この処理を入力信号データに対して一定間隔で施すことにより（フレーミング処理）、各フレームで分離後の信号の振幅スペクトルを得る。この分離信号の振幅スペクトル、つまり、推定アルゴリズムによる推定結果は、図４に示す周波数特性推定部１４に出力される。

　ニューラルネットワークに基づく音源分離は、上述したように、数十ミリ秒～数百ミリ秒の遅延が発生するものの、所望の音を高精度に分離することができる。入力信号に含まれている対象音源種類の音は、周波数特性が変化し得るものである。つまり、入力信号に応じて変化し得る対象音源種類の音を精度よく分離することができる。例えば、対象音源種類に「Ｆｏｏｔｓｔｅｐ」が指定されている場合、アスファルトを歩く足音から草むらを歩く足音に変わった場合などにおいても、適切に足音を分離することができる。

　なお、推定アルゴリズムは、非特許文献１に示されているようなニューラルネットワークに基づく手法を用いたものに限らない。対象音源種類の音を抽出する手法であれば何を使ってもよく、例えば、非負値行列因子分解（Non-negative Matrix Factorization；ＮＭＦ）を使用するものであってもよい。このように他の推定アルゴリズムを用いる場合においても同様に遅延が発生し得るが、所望の音を精度よく分離することができる。

　図４に示す周波数特性推定部１４は、周波数特性の推定を行う。この推定には、音源分離部１３から入力される分離信号の振幅スペクトル、すなわち、ユーザが事前に指定したカテゴリの音の振幅スペクトルを使用する。具体的には、フレーム毎に順次振幅スペクトルが入力されてくるので、例えば、その平均や、時定数をつけて重み付き加重和を計算することで所望音の周波数特性を推定することができる。ここで、所望音が「Ｆｏｏｔｓｔｅｐ」のように音が鳴っている区間と無音区間の両者が存在する場合がある。その場合は、無音区間を平均計算に加えてしまうと推定周波数に誤差が出ることがあるため、一定のしきい値以下は無音区間と判定し、平均計算から除外することもできる。なお、周波数特性推定部１４は、これに限らず、他の手法により周波数特性を推定するものであってもよい。

　フィルタ係数算出部１５は、フィルタ処理部１１で使用するフィルタ係数を算出する。具体的には、フィルタ係数算出部１５は、まず、ユーザが設定した利得設定を読み込む。これは、上述したように、指定されている対象音源種類の音を増幅させるか減衰させるかの設定または＋○ｄＢまたは－○ｄＢといった具体的数値で設定可能である。このようにして、フィルタ係数算出部１５は、フィルタ係数を、入力信号に含まれている対象音源種類の音を制御するものとする。具体的には、フィルタ係数算出部１５は、周波数特性推定部１４で推定された周波数特性および利得設定によって、ターゲットとなるフィルタ特性を決定する。この特性が決まった後、フィルタ処理部１１で使用する形式（例えば、ＩＩＲフィルタ、ＦＩＲフィルタなど）に沿った係数を算出すればよい。この計算は、伝達関数から求める古典的な手法、数値最適化に基づく手法など任意のアルゴリズムを使用してよい。このようにして算出されたフィルタ係数は、具体的には、対象音源種類の音が増幅または減衰されるように入力信号の各周波数帯域を適宜、増幅または減衰させるものである。算出された係数は、係数更新部１６および画面表示更新部１７に出力される。

　係数更新部１６は、フィルタ処理部１１におけるフィルタリングの設定を行うフィルタ設定部である。係数更新部１６は、具体的には、フィルタ処理部１１におけるフィルタ係数の設定を、フィルタ係数算出部１５から入力される係数とする。つまり、上述したように、入力信号中の対象音源種類の音を制御するものであって入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする。

　ここで、係数更新部１６は、ユーザが設定した係数更新設定に基づき、フィルタ係数更新のタイミングを制御する。係数更新部１６は、例えば、入力信号（具体的には、入力オーディオ信号）に基づいてタイミングを検知する。ここで注意するべきは、フィルタ処理部１１は、具体的には、数百マイクロ秒～数ミリ秒の低遅延により入力信号を随時フィルタリングして出力し続けていることである。つまり、フィルタ処理部１１におけるフィルタリングは、少なくとも推定アルゴリズムよりも低遅延の処理（具体的には、リアルタイム処理）である。すなわち、ユーザにとっては遅延を感じず、従来と同じようにイコライザの出力音を聞いているような状態である。このように、フィルタ係数のみを更新することで、低遅延を維持しながら対象音源種類で指定した音を制御（具体的には、周波数特性の増幅または減衰）する高精度なフィルタリングを得ることができる。

　係数更新部１６は、具体的には、図２を参照して説明したように、係数更新設定が「Ｎｏｎｅ」の場合には、ユーザが係数設定（具体的には、上述した「Ｇａｉｎ」または「Ｓｏｕｎｄ　ｔｙｐｅ」の設定）を変更してフィルタリングの指示を新たに受け付けたタイミングでフィルタ係数を更新する。また、係数更新部１６は、係数更新設定が「Ｍａｎｕａｌ」の場合には、ユーザ設定などによる定期的な間隔でフィルタ係数を更新する。さらに、係数更新部１６は、係数更新設定が「Ａｕｔｏ」の場合には、ユーザが違和感を抱かないタイミングでフィルタ係数を更新する。

　違和感を抱かないタイミングであるか否かは、音の切り替わりタイミングが分かる所定の判定情報（例えば、オーディオ信号、ビデオ信号など）を用いて判定する。例えば、入力信号を判定情報として監視しておき、その音量（振幅値）がある閾値よりも小さくなったタイミングで変更することができる。または、ゲームや音楽であれば、場面が変更した際の、音の転換部分で変更することができる。これにより、フィルタ係数の変更による急な音の変化を避けることができる。なお、係数更新部１６は、フィルタ係数を更新した場合、更新した旨を表す情報を画面表示更新部１７に出力する。

　画面表示更新部１７は、既に表示されているイコライザ３やフィルタ設定のパラメータなどを最新のものに更新する。具体的には、画面表示更新部１７は、係数更新部１６によりフィルタ係数が更新された場合、つまり、係数更新部１６から更新した旨を表す情報が入力された場合に、更新前後の違いを表す情報を表示デバイスに出力させる。画面表示更新部１７は、具体的には、図３に示したように、違いを表す情報を含むユーザ操作可能なイコライザ３の画像を表示デバイスに表示させる。なお、この違いを表す情報は、図３に示したものに限らず、例えば、表示デバイス以外の再生デバイスに出力（具体的には、スピーカなどに音で出力）させてもよい。

［２－３．情報処理装置のハードウェア構成例］
　図６は、情報処理装置１０のハードウェア構成例を示している。情報処理装置１０は、バスにより相互接続されている制御部１０１、記憶部１０２、入力部１０３、通信部１０４および出力部１０５を有している。

　制御部１０１は、例えば、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）およびＲＯＭ（Read Only Memory）などで構成されている。ＲＯＭには、ＣＰＵにより読み込まれ動作されるプログラムなどが記憶されている。ＲＡＭは、ＣＰＵのワークメモリとして用いられる。ＣＰＵは、ＲＯＭに記憶されたプログラムにしたがい様々な処理を実行してコマンドの発行を行うことによって情報処理装置１０全体の制御を行う。

　記憶部１０２は、例えば、ＨＤＤ、ＳＳＤ（Solid State Drive）、半導体メモリなどにより構成された記憶媒体であり、画像データ、動画データ、音声データ、テキストデータなどのコンテンツデータの他、プログラム（例えば、アプリケーション）などのデータを保存するものである。

　入力部１０３は、情報処理装置１０に対して各種情報を入力するための装置である。入力部１０３により情報が入力されると、制御部１０１は、その入力情報に対応した各種処理を行う。入力部１０３は、マウスおよびキーボードの他、マイクロホン、各種センサ、タッチパネル、モニタと一体に構成されたタッチスクリーン、物理ボタンなどでもよい。なお、情報処理装置１０への各種情報の入力は、後述する通信部１０４を介して行われる構成であってもよい。

　通信部１０４は、所定の通信規格により他の装置やインターネットと通信する通信モジュールである。通信方法としては、Ｗｉ－Ｆｉ（Wireless Fidelity）などの無線ＬＡＮ（Local Area Network）、ＬＴＥ（Long Term Evolution）、５Ｇ（第５世代移動通信システム）、ブロードバンド、Bluetooth（登録商標）などがあげられる。

　出力部１０５は、情報処理装置１０から各種情報を出力するための装置である。出力部１０５は、例えば、画像や映像を表示するディスプレイ（表示デバイス）、スピーカなどの音を出力する出力デバイスで構成されている。なお、情報処理装置１０からの各種情報の出力は、通信部１０４を介して行われる構成であってもよい。

　制御部１０１は、例えば、記憶部１０２に記憶されているプログラム（例えば、アプリケーション）を読み出し実行することで各種処理を行う。つまり、情報処理装置１０は、コンピュータとしての機能を有している。

　なお、プログラム（例えば、アプリケーション）は、記憶部１０２に記憶されていなくてもよい。例えば、情報処理装置１０が読み取り可能な記憶媒体に記憶されているプログラムを読み出して実行するようにしてもよい。この記憶媒体としては、例えば、情報処理装置１０に対して着脱自在な光ディスク、磁気ディスク、半導体メモリ、ＨＤＤなどがあげられる。また、インターネットなどのネットワークに接続された装置（例えば、クラウドストレージ）にプログラム（例えば、アプリケーション）やデータを記憶させておき、情報処理装置１０がそこからプログラムやデータを読み出して実行するようにしてもよい。また、プログラムは、例えば、既存のアプリケーションに、処理の一部または全てを追加するプラグインプログラムであってもよい。例えば、プログラムは、上述したようなアプリケーションを全て実行するものであってもよいし、アプリケーションに上述した音の制御機能を追加するプラグインプログラムであってもよい。

[２－４．情報処理装置による処理例]
　図７は、上述した一連の処理（音質調整処理）をフローチャートとして示したものである。なお、本例では、上述したユーザ操作による入力となる対象音源種類、利得および係数更新の各設定については、フローをわかりやすくするために最初の１回だけ設定する旨で記載している。しかしながら、この設定変更は随時行うことも可能である。

　情報処理装置１０は、音質調整処理が開始されると、まず、フィルタ処理部１１の設定の初期化を行う（ステップＳ１０）。具体的には、係数更新部１６がフィルタ係数に初期値を設定する。そして、情報処理装置１０は、ユーザ操作によって音質調整の設定がなされると、対象音源種類、利得および係数更新を設定する（ステップＳ２０）。具体的には、図２に示した設定指示画面により設定が指示されることで記憶領域に対象音源種類、利得および係数更新を保存する。

　そして、情報処理装置１０は、これらの設定がなされた後にオーディオ信号を入力する（ステップＳ３０）。これにより、フィルタ処理部１１および音源分離部１３、係数更新部１６にオーディオ信号（入力信号）が入力される。次に、情報処理装置１０は、フィルタ係数の更新時期であるか否かを判定する（ステップＳ４０）。この判定は、具体的には、係数更新部１６が上述した係数更新設定に基づいて行う。ステップＳ４０にて更新時期である（ＹＥＳ）と判定された場合には、情報処理装置１０は、フィルタ係数の更新を行う（ステップＳ５０）。具体的には、係数更新部１６がフィルタ係数算出処理（後述）の算出結果を用いてフィルタ係数を更新する。

　次に、情報処理装置１０は、フィルタ係数の更新に応じて画面表示を更新する（ステップＳ６０）。具体的には、画面表示更新部１７が更新前後の違いを表す情報（例えば、図３に示したようなイコライザ３の画像）を表示デバイスに出力させる。

　ステップＳ６０による画面表示の更新後、または、ステップＳ４０にてフィルタ係数の更新時期でない（ＮＯ）と判定された場合には、情報処理装置１０は、低遅延フィルタリングを行い（ステップＳ７０）、フィルタリング後のオーディオ信号を出力する（ステップＳ８０）。具体的には、フィルタ処理部１１がオーディオ信号にフィルタリングを施し、フィルタリング後のオーディオ信号を出力する。そして、出力されたオーディオ信号がスピーカ・ヘッドホンなどの出力デバイスに送られて出力される。

　次に、情報処理装置１０は、信号が継続中であるか否かを判定し（ステップＳ９０）、継続中である（ＹＥＳ）と判定された場合には、処理がステップＳ３０に戻される。一方、継続中でない（ＮＯ）と判定された場合には、音質調整処理を終了する。

　図８は、情報処理装置１０によるフィルタ係数算出処理の流れを示すフローチャートである。フィルタ係数算出処理は、例えば、オーディオ信号が音源分離部１３に入力されることで処理を開始する。まず、情報処理装置１０は、オーディオ信号の信号バッファリングを行う（ステップＳ１１０）。次に、情報処理装置１０は、音源分離係数を選択する（ステップＳ１２０）。具体的には、音源分離係数選択部１２が設定されている対象音源種類に基づいて音源分離係数を選択し、音源分離部１３に出力する。

　続いて、情報処理装置１０は、オーディオ信号に対して音源分離を行う（ステップＳ１３０）。具体的には、音源分離部１３が音源分離係数に基づいてオーディオ信号から対象音源種類の音を分離し、周波数特性推定部１４に出力する。次に、情報処理装置１０は、周波数特性を推定する（ステップＳ１４０）。具体的には、周波数特性推定部１４が分離された対象音源種類の音の周波数特性を推定し、フィルタ係数算出部に出力する。最後に、情報処理装置１０は、フィルタ係数を算出し（ステップＳ１５０）、フィルタ係数算出処理を終了する。具体的には、フィルタ係数算出部１５が推定された周波数特性を用いてフィルタ係数を算出し、係数更新部１６に出力する。このフィルタ係数は、上述したフィルタ係数の更新（ステップＳ５０）にて使用される。

［２－５．まとめ］
　本実施形態に係る情報処理装置１０では、係数更新部１６が、入力信号をフィルタリングするフィルタ処理部１１のフィルタリングの設定を、入力信号中の対象音源種類の音を制御するものであって入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする。これにより、マイクロホンなどの追加のハードウェアを必要とせずに、入力信号に応じた最適なフィルタを生成することができる。詳述すると、入力信号中に含まれる対象音源種類の音の特性に最適なフィルタを生成することができる。これにより、ユーザに対して最適な音響特性を有する信号の再生を行うことができる。

　また、フィルタ処理部１１におけるフィルタリングは、推定アルゴリズムの処理よりも低遅延（具体的には、リアルタイム処理）であるため、フィルタ処理部１１でフィルタリングした出力信号を低遅延（例えば、数百マイクロ秒～数ミリ秒程度の遅延）で出力することができる。また、係数更新設定に応じてフィルタリングの設定が自動的に更新されるため、ユーザがフィルタリングの設定（具体的には、イコライザなど）を細かく調整する必要がなくなる。

　さらに、フィルタリングの設定は、定期的な間隔で更新される他、フィルタリングの設定の変更の指示を受け付けたタイミング（ユーザ任意のタイミング）やユーザに違和感を抱かせないタイミングでも更新可能である。これにより、フィルタ係数更新時の音質変化をより自然なものとすることができ、コンテンツへの没入感を阻害しないようにすることができる。

　また、係数更新部１６によりフィルタ係数が更新された場合に、更新前後の違いが分かるように、ユーザ操作可能なイコライザの画像を表示デバイスに出力させているため、フィルタの状況をユーザに直感的に把握させることができる。

＜３．第２実施形態＞
　第２実施形態に係る情報処理装置は、推定アルゴリズムによってフィルタ係数そのものを推定する点が第１実施形態の情報処理装置１０とは相違する。他の点（アプリケーションの具体例、ハードウェアの構成例など）は、基本的に情報処理装置１０と同じである。以下、上述した情報処理装置１０との相違点について説明する。

　図９は、本実施形態に係る情報処理装置（情報処理装置１０Ａ）の機能ブロックの構成例を示している。情報処理装置１０Ａは、フィルタ処理部１１、音源分離係数選択部１２、音源分離部１３Ａ、係数更新部１６および画面表示更新部１７を有している。

　音源分離部１３Ａは、フィルタ係数出力型の音源分離処理を行う。分かりやすく言うと、音源分離部１３Ａは、出力を振幅スペクトル値とはせず、フィルタ処理部１１におけるフィルタリングの設定（具体的には、フィルタ係数）そのものを直接推定する。この音源分離処理には、音源分離に関する推定アルゴリズムが用いられる。この推定アルゴリズムは、具体的には、音源分離係数選択部１２から入力される係数と、設定されている利得設定とを用いて入力信号からフィルタ係数を推定し推定結果として出力する。例えば、推定アルゴリズムとしては、ニューラルネットワークを使用することができる。なお、推定アルゴリズムは、同様の処理を行えるものであれば、これ以外であってもよい。

　図１０は、ニューラルネットワークによるフィルタ係数算出例を示す。このニューラルネットワークは、第１実施形態で既に説明した図５の音源分離例の場合と同様、入力信号ベクトルとしては、入力信号を周波数領域に変換した振幅スペクトルを用いる。これに加えて、利得設定の値（例えば＋○ｄＢ、－○ｄＢなど）を入力として与える。ニューラルネットワークの出力は、フィルタ処理部１１で使用するフィルタ係数とする。ニューラルネットワークは、事前に入力データと出力データのセットを用意すれば学習を行えるので、このような変則的な入出力も実現することができる。このようにして得られたフィルタ係数は、係数更新部１６および画面表示更新部１７に出力される。

　係数更新部１６は、音源分離部１３Ａから入力されたフィルタ係数を用いてフィルタ処理部１１のフィルタ係数を更新する。画面表示更新部１７は、音源分離部１３Ａから入力されたフィルタ係数を用いて、表示デバイスの表示を更新する。他は、第１実施形態と同様である。このように、本実施形態では、第１実施形態における情報処理装置１０のフィルタ係数算出処理（図８参照）における音源分離（ステップＳ１３０）～フィルタ係数算出（ステップＳ１５０）までの処理を、音源分離部１３Ａにおいて纏めて行っている。他は、図７および図８を参照して説明した通りである。

　したがって、本実施形態では、第１実施形態で説明した効果に加えて、以下の効果を奏する。音源分離部１３Ａでフィルタ係数そのものを直接出力することによって、第１実施形態の情報処理装置１０が有していた周波数特性推定部１４およびフィルタ係数算出部１５（図４参照）を省くことができる。つまり、機能ブロックの構成を減らして処理を簡略化することができる。

　また、ニューラルネットワークそのものの演算も、出力ベクトルの次元数を少なくすることができる。具体的には、振幅スペクトルの出力の場合、１０２４や２０４８のサイズが必要だったのに対し、ＩＩＲフィルタ係数の出力では、数個から数十個程度のサイズになる。そのため、ニューラルネットワークの後段部分の乗算・加算演算を削減することができる。したがって、図５に示した場合（分離した音を出力する場合）と比較して、計算量の削減、すなわち低消費電力化につなげることができる。

＜４．第３実施形態＞
　第３実施形態に係る情報処理装置は、出力デバイスに応じた周波数特性の補正を加えてフィルタ係数を算出する点が、第１実施形態とは相違する。他の点は、第１実施形態と同様である。

　図１１は、本実施形態に係る情報処理装置（情報処理装置１０Ｂ）の機能ブロックの構成例を示している。情報処理装置１０Ｂは、第１実施形態の情報処理装置１０と同様、フィルタ処理部１１、音源分離係数選択部１２、音源分離部１３、周波数特性推定部１４、フィルタ係数算出部１５、係数更新部１６および画面表示更新部１７を有している。

　また、情報処理装置１０Ｂは、周波数特性推定部１４およびフィルタ係数算出部１５間に、上述した補正を行う周波数特性補正部１８を有している。つまり、本実施形態では、周波数特性推定部１４で推定された周波数特性は、周波数特性補正部１８に出力される。

　周波数特性補正部１８は、出力デバイス周波数特性を用いて、音源分離出力から推定された周波数特性を補正する。出力デバイス周波数特性は、フィルタリング後の出力信号を出力する出力デバイス（例えば、ヘッドホン、スピーカなどの再生デバイス）が持つハードウェア固有の周波数特性である。出力デバイス周波数特性は、例えば、予め計測して記憶領域に読み出し可能に記憶しておいたものである。例えば、出力デバイスの使用機種が決まっている場合には、その機種の特性を記憶しておき、決まっていない場合には、機種（例えば、スマートフォンＡのスピーカ、ヘッドホンＢなど）毎の周波数特性を記憶しておく。そして、必要に応じて機種を判定（自動、手動を問わない）し、判定結果に応じた特性を使用するようにする。

　周波数特性補正部１８は、具体的には、出力デバイスの特性が再生時にかかることを鑑み、その負の特性を音源分離出力の周波数特性にかけることで補正を行う。例えば、出力デバイスの機種によっては、低音が出にくいものがあるが、その場合、低音が出やすくなる補正をかけるようにする。これにより、出力デバイスに最適なフィルタ係数を得ることができる。

　なお、図示した例では、周波数特性補正部１８は、周波数特性推定部１４から入力される周波数特性に対して補正を行い、補正後の周波数特性をフィルタ係数算出部１５に出力しているが、周波数特性推定部１４が出力デバイス周波数特性を読み込んで直接的に補正された周波数特性を推定してもよい。

　以上説明したように、本実施形態では、第１実施形態で説明した効果に加えて、以下の効果を奏する。入力信号と出力デバイス周波数特性に応じた、より最適なフィルタを生成することができる。つまり、コンテンツと再生デバイスの両面を考慮して音質の調整を行うため、より高音質な音を提供することができる。

＜５．第４実施形態＞
　第４実施形態に係る情報処理装置は、処理の一部をサーバ側で実行する点が、第１実施形態とは相違する。他の点は、第１実施形態と同様である。

　図１２は、本実施形態に係る情報処理装置（情報処理装置１０Ｃ）の機能ブロックの構成例を示している。クライアント側となる情報処理装置１０Ｃは、フィルタ処理部１１、係数更新部１６および画面表示更新部１７を有している。また、情報処理装置１０Ｃは、インターネットなどのネットワークを介して、サーバ側となる他の情報処理装置１０Ｄと通信可能な通信機能を有している。

　一方、他の情報処理装置１０Ｄは、音源分離係数選択部１２、音源分離部１３、周波数特性推定部１４およびフィルタ係数算出部１５を有している。また、他の情報処理装置１０Ｄは、ネットワークを介して、情報処理装置１０Ｃと通信可能な通信機能を有している。このように、本実施形態では、音源分離係数選択部１２、音源分離部１３、周波数特性推定部１４およびフィルタ係数算出部１５の処理（具体的には、図８で示したフィルタ係数算出処理）をサーバ側で行う。なお、他の情報処理装置１０Ｄのハードウェアの構成は、情報処理装置１０Ｃと同様（図６を参照）である。

　具体的には、情報処理装置１０Ｃは、入力信号と、指定されている対象音源種類および利得の設定とを、他の情報処理装置１０Ｄに送信する。他の情報処理装置１０Ｄは、これらを用いて音源分離係数選択部１２、音源分離部１３、周波数特性推定部１４およびフィルタ係数算出部１５によりフィルタ係数を算出し、算出したフィルタ係数を情報処理装置１０Ｃに送信する。

　情報処理装置１０Ｃは、他の情報処理装置１０Ｄから送信されたフィルタ係数を受信する。具体的には、係数更新部１６および画面表示更新部１７が、この受信したフィルタ係数を用いて各々上述した処理を行う。このように、情報処理装置１０Ｃは、他の情報処理装置１０Ｄで決定されたフィルタ係数を、ネットワークを介して取得する。

　したがって、本実施形態では、第１実施形態で説明した効果に加えて、以下の効果を奏する。クライアント側である情報処理装置１０Ｃは、入力信号および音質調整に用いる各種設定をサーバ側である、他の情報処理装置１０Ｄに送り、他の情報処理装置１０Ｄからフィルタ係数を受け取ることで、低遅延・低演算量かつ高性能なフィルタ係数を得ることができる。つまり、サーバ側で比較的計算量が大きい処理（具体的には、音源分離）を実行することで、クライアント側にかかる計算負荷を著しく抑えることができる。

＜６．変形例＞
　以上、本開示の実施形態について具体的に説明したが、本開示は、上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。例えば、次に述べるような各種の変形が可能である。また、次に述べる変形の態様は、任意に選択された一又は複数を、適宜に組み合わせることもできる。また、上述した実施形態の構成、方法、工程、形状、材料および数値等は、本開示の主旨を逸脱しない限り、互いに組み合わせることや入れ替えることが可能である。また、１つのものを２つ以上に分けることも可能であり、一部を省略することも可能である。

　例えば、上述した第１実施形態では、図２に示した設定指示画面を用いて、対象音源種類、利得および係数更新の各設定を行うものについて例示したが、設定の指示は、これに限らない。例えば、設定指示画面は、他の画面構成であってもよい。具体的には、ゲーム画面２とは別個にユーザ指示入力部４が表示されるものであってもよい。また、各設定の指示は、設定指示画面を用いるものに限らず、例えば、音声入力で行うものなどであってもよい。さらに、各設定は、ユーザが適宜設定するものに限らず、決まった設定を用いてもよい。

　また例えば、第１実施形態では、音質調整に用いるイコライザとして、図２に示すイコライザ３を例示したが、適用可能なイコライザは、これに限らず、任意のもの（例えば、種類、機能など）を選択することができる。この場合、使用するイコライザに合わせて必要に応じてユーザが設定する設定項目やフィルタ処理部１１の構成などを変えればよい。例えば、イコライザ３は、グラフィックイコライザであっても、パラメトリックイコライザであってもよく、設定項目は、使用イコライザのパラメータを適宜、設定するものであってもよい。

　また例えば、第１実施形態では、対象音源種類の音を増幅または減衰させるものを例示したが、音の制御は、これに限らない。例えば、対象音源種類の音を抽出または除去するもの、対象音源種類の音の周波数特性（例えば、高低）を変化させるものなどであってもよい。例えば、対象音源種類として、特定の人物の音、特定の楽器の音、雑音などを設定しておくことで、これらの音の強調、変更、抽出または除去などに適用することができる。

　また例えば、第１実施形態では、情報処理装置１０による音質調整機能を適用可能なアプリケーションの具体例としてゲームを例示したが、これに限らず、例えば、ウェブ会議システム、ライブ配信システム、通話アプリケーションなどの他のアプリケーションに適用することができる。

　また例えば、上述した第３実施形態では、第１実施形態で説明した音源分離部１３を有する情報処理装置１０Ｂに、出力デバイスの周波数特性を補正する（周波数特性補正部１８）機能を持たせたが、当該機能を第２実施形態で説明した音源分離部１３Ａを有するものに持たせてもよい。この場合、例えば、音源分離部１３Ａに、図５に示した利得設定と同様にして出力デバイス周波数特性を入力して推定結果を得るようにすればよい。

　また例えば、上述した第４実施形態では、第１実施形態で説明した音源分離係数選択部１２、音源分離部１３、周波数特性推定部１４およびフィルタ係数算出部１５の処理をサーバ側で行うものについて説明したが、サーバ側で行う処理は、これに限らない。例えば、第２実施形態の情報処理装置１０Ａにおいて、音源分離係数選択部１２および音源分離部１３Ａの処理をサーバ側で行うようにしてもよい。また、例えば、これらの処理の一部をサーバ側で行うものであってもよい。

　なお、本開示は、以下のような構成も採ることができる。
（１）
　入力信号をフィルタリングするフィルタ処理部と、
　前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部と
　を有する情報処理装置。
（２）
　前記フィルタリングは、前記推定アルゴリズムよりも低遅延の処理である
　（１）に記載の情報処理装置。
（３）
　前記フィルタリングは、リアルタイム処理である
　（１）または（２）に記載の情報処理装置。
（４）
　前記推定アルゴリズムは、前記入力信号から前記対象音源種類の音を推定分離するものであり、
　前記フィルタリングの設定は、前記推定アルゴリズムによって分離された前記対象音源種類の音の周波数特性に基づき決定されたものである
　（１）から（３）のうちの何れかに記載の情報処理装置。
（５）
　前記推定アルゴリズムは、前記フィルタリングの設定そのものを推定するものである
　（１）から（３）のうちの何れかに記載の情報処理装置。
（６）
　前記フィルタリングの設定は、前記対象音源種類の音が増幅または減衰されるように前記入力信号の各周波数帯域を適宜、増幅または減衰させるものである
　（１）から（５）のうちの何れかに記載の情報処理装置。
（７）
　前記フィルタリングは、ＩＩＲ（Infinite impulse response）フィルタを用いて行われ、
　前記フィルタリングの設定は、前記フィルタのフィルタ係数である
　（１）から（６）のうちの何れかに記載の情報処理装置。
（８）
　前記推定アルゴリズムは、学習用の入力信号を入力して前記推定結果が得られるように学習されたニューラルネットワークを用いたものである
　（１）から（７）のうちの何れかに記載の情報処理装置。
（９）
　前記フィルタリングの指示を受け付けたタイミング、定期的な間隔または所定の判定情報に基づき違和感なしと判定されたタイミングで、前記フィルタリングの設定を更新する
　（１）から（８）のうちの何れかに記載の情報処理装置。
（１０）
　前記フィルタリングの設定が更新された場合に、更新前後の違いを表す情報を出力デバイスに出力させる
　（１）から（９）のうちの何れかに記載の情報処理装置。
（１１）
　前記出力デバイスは、表示デバイスであり、
　前記表示デバイスに前記違いを表す情報を含むユーザ操作可能なイコライザの画像を表示させる
　（１）から（１０）のうちの何れかに記載の情報処理装置。
（１２）
　前記フィルタリングの設定は、前記フィルタリング後の出力信号を出力する出力デバイスの周波数特性に応じた補正がなされたものである
　（１）から（１１）のうちの何れかに記載の情報処理装置。
（１３）
　前記フィルタリングの設定は、他の情報処理装置で決定されたものを、ネットワークを介して取得したものである
　（１）から（１２）のうちの何れかに記載の情報処理装置。
（１４）
　入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
　処理を行う情報処理方法。
（１５）
　入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
　処理をコンピュータに実行させるプログラム。

　３・・・イコライザ、１０，１０Ａ，１０Ｂ，１０Ｃ・・・情報処理装置、１１・・・フィルタ処理部、１３，１３Ａ・・・音源分離部、１４・・・周波数特性推定部、１５・・・フィルタ係数算出部、１６・・・係数更新部、１７・・・画面表示更新部、１８・・・周波数特性補正部

Claims

　入力信号をフィルタリングするフィルタ処理部と、
　前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部と
　を有する情報処理装置。
　前記フィルタリングは、前記推定アルゴリズムよりも低遅延の処理である
　請求項１に記載の情報処理装置。
　前記フィルタリングは、リアルタイム処理である
　請求項１に記載の情報処理装置。
　前記推定アルゴリズムは、前記入力信号から前記対象音源種類の音を推定分離するものであり、
　前記フィルタリングの設定は、前記推定アルゴリズムによって分離された前記対象音源種類の音の周波数特性に基づき決定されたものである
　請求項１に記載の情報処理装置。
　前記推定アルゴリズムは、前記フィルタリングの設定そのものを推定するものである
　請求項１に記載の情報処理装置。
　前記フィルタリングの設定は、前記対象音源種類の音が増幅または減衰されるように前記入力信号の各周波数帯域を適宜、増幅または減衰させるものである
　請求項１に記載の情報処理装置。
　前記フィルタリングは、ＩＩＲ（Infinite impulse response）フィルタを用いて行われ、
　前記フィルタリングの設定は、前記フィルタのフィルタ係数である
　請求項１に記載の情報処理装置。
　前記推定アルゴリズムは、学習用の入力信号を入力して前記推定結果が得られるように学習されたニューラルネットワークを用いたものである
　請求項１に記載の情報処理装置。
　前記フィルタリングの指示を受け付けたタイミング、定期的な間隔または所定の判定情報に基づき違和感なしと判定されたタイミングで、前記フィルタリングの設定を更新する
　請求項１に記載の情報処理装置。
　前記フィルタリングの設定が更新された場合に、更新前後の違いを表す情報を出力デバイスに出力させる
　請求項１に記載の情報処理装置。
　前記出力デバイスは、表示デバイスであり、
　前記表示デバイスに前記違いを表す情報を含むユーザ操作可能なイコライザの画像を表示させる
　請求項１０に記載の情報処理装置。
　前記フィルタリングの設定は、前記フィルタリング後の出力信号を出力する出力デバイスの周波数特性に応じた補正がなされたものである
　請求項１に記載の情報処理装置。
　前記フィルタリングの設定は、他の情報処理装置で決定されたものを、ネットワークを介して取得したものである
　請求項１に記載の情報処理装置。
　入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
　処理を行う情報処理方法。
　入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
　処理をコンピュータに実行させるプログラム。