WO2023243454A1

WO2023243454A1 - パラメータ推定方法、音処理装置、および音処理プログラム

Info

Publication number: WO2023243454A1
Application number: PCT/JP2023/020749
Authority: WO
Inventors: 颯人山川; 祐高橋
Original assignee: ヤマハ株式会社
Priority date: 2022-06-16
Filing date: 2023-06-05
Publication date: 2023-12-21
Also published as: JP2023183660A

Abstract

パラメータ推定方法は、信号処理され混合される第１音信号と第２音信号を受け取り、エンコーダを用いて前記第１音信号と前記第２音信号を処理して、前記第１音信号の特徴量に対応する第１代替表現と前記第２音信号の特徴量に対応する第２代替表現とを生成し、前記エンコーダは、前記第１代替表現および前記第２代替表現を混合して得られる混合代替表現が、前記第１音信号および前記第２音信号を混合した混合音信号の特徴量に対応するよう訓練されており、目標特性を有する参照混合音を示す参照データを受け付け、前記参照データに対応する参照混合代替表現を用いて、第１目標代替表現と第２目標代替表現とを選択し、前記第１代替表現と前記第１目標代替表現を用いて、前記第１音信号に対する前記信号処理に用いる第１パラメータを推定し、記第２代替表現と前記第２目標代替表現を用いて、前記第２音信号に対する前記信号処理に用いる第２パラメータを推定する。

Description

パラメータ推定方法、音処理装置、および音処理プログラム

　この発明の一実施形態は、パラメータ推定方法、音処理装置、および音処理プログラムに関する。

　非特許文献１には、音信号の振幅スペクトルを目標特性に近づけるためのイコライザのパラメータを調整する構成が開示されている。

Ozone 9 Match EQ，［令和４年４月１８日検索］，インターネット＜URL：https://www.izotope.com/en/products/ozone/features/match-eq.html＞

　特許文献１の構成は、複数の音信号を混合した後の振幅スペクトルを目標特性に近づけるように、混合前の複数の音信号のそれぞれの振幅スペクトルを調整するものではない。

　また、仮に混合後の音信号の特性を目標特性に近づけるように、混合前の複数の音信号のそれぞれの振幅スペクトルを調整するとしても、振幅スペクトルには位相情報が欠落している。そのため、複数の音信号を混合した場合の特性と、複数の音信号のそれぞれの振幅スペクトルを求めた後に混合した特性は、必ずしも対応しない。

　以上の事情を考慮して、本開示のひとつの態様は、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めるパラメータ推定方法を提供することを目的とする。

　音処理装置は、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。

オーディオミキサ１の構成を示すブロック図である。信号処理の機能的な構成を示すブロック図である。入力チャンネル３０２、ステレオバス３０３、およびＭＩＸバス３０４の機能的な構成を示すブロック図である。オーディオミキサ１の操作パネルの模式図である。パラメータの推定処理を行うＣＰＵ２０６の機能的構成を示すブロック図である。エンコーダ５０の訓練段階における機能的構成を示すブロック図である。実行段階の動作を示す音処理方法のフローチャートである。

　図１は、オーディオミキサ１の構成を示すブロック図である。オーディオミキサ１は、本発明の音処理装置の一例である。オーディオミキサ１は、表示器２０１、操作部２０２、オーディオＩ／Ｏ２０３、信号処理部２０４、ネットワークＩ／Ｆ２０５、ＣＰＵ２０６、フラッシュメモリ２０７、およびＲＡＭ２０８を備えている。

　これら構成は、バス１７１を介して接続されている。また、オーディオＩ／Ｏ２０３および信号処理部２０４は、デジタルの音信号を伝送するための波形バス１７２にも接続されている。

　ＣＰＵ２０６は、オーディオミキサ１の動作を制御する制御部である。ＣＰＵ２０６は、記憶媒体であるフラッシュメモリ２０７に記憶された所定のプログラム（音処理プログラム）をＲＡＭ２０８に読み出して実行することにより各種の動作を行なう。なお、プログラムは、サーバに記憶されていてもよい。ＣＰＵ２０６は、ネットワークを介してサーバからプログラムをダウンロードし、実行してもよい。

　信号処理部２０４は、混合処理等の各種の音処理を行なうためのＤＳＰから構成される。信号処理部２０４は、ネットワークＩ／Ｆ２０５またはオーディオＩ／Ｏ２０３を介して受信した音信号に、エフェクト処理、レベル調整処理、および混合処理等の信号処理を施す。信号処理部２０４は、信号処理後のデジタルの音信号をオーディオＩ／Ｏ２０３またはネットワークＩ／Ｆ２０５を介して出力する。

　図２は、信号処理部２０４、オーディオＩ／Ｏ２０３（またはネットワークＩ／Ｆ２０５）、およびＣＰＵ２０６で行われる信号処理の機能的な構成を示すブロック図である。図２に示すように、信号処理は、機能的に、入力パッチ３０１、入力チャンネル３０２、ステレオバス３０３、ＭＩＸバス３０４、出力チャンネル３０５、および出力パッチ３０６によって行う。

　入力パッチ３０１は、マイク、楽器、または楽器用アンプ等から音信号を受け付ける。入力パッチ３０１は、受け付けた音信号を入力チャンネル３０２の各チャンネルに供給する。図３は、入力チャンネルの機能的構成を示すブロック図である。入力チャンネル３０２の各チャンネルは、入力パッチ３０１から音信号を受け付けて、信号処理を施す。

　図３は、入力チャンネル３０２、ステレオバス３０３、およびＭＩＸバス３０４の機能的な構成を示すブロック図である。例えば、第１入力チャンネルおよび第２入力チャンネルは、それぞれ入力信号処理部３５０、ＦＡＤＥＲ３５１、ＰＡＮ３５２、およびセンドレベル調整回路３５３を備えている。図示しない他の入力チャンネルも同じ構成を備えている。

　入力信号処理部３５０は、イコライザまたはコンプレッサ等のエフェクト処理あるいはレベル調整処理等を施す。ＦＡＤＥＲ３５１は、各入力チャンネルのゲインを調整する。

　図４は、オーディオミキサ１の操作パネルの模式図である。操作パネルには、入力チャンネル毎に対応するチャンネルストリップ６１を有している。チャンネルストリップ６１は、チャンネル毎に、スライダおよび摘まみを縦に並べて配置している。スライダは、図３のＦＡＤＥＲ３５１に対応する。オーディオミキサ１の利用者は、スライダの位置を変更することで、対応する入力チャンネルのゲインを調整する。

　摘まみは、例えば図３のＰＡＮ３５２に対応する。オーディオミキサ１の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、ステレオの左右のレベルバランスを調整する。ＰＡＮ３５２で分配された音信号は、ステレオバス３０３に送出される。あるいは、摘まみは、例えば図３のセンドレベル調整回路３５３に対応する。オーディオミキサ１の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、ＭＩＸバス３０４への送り量を調整する。あるいは、スライダは、ＭＩＸバス３０４に対する送り量を調整する操作部として機能することもできる。この場合、スライダは、図３のセンドレベル調整回路３５３に対応する。

　ステレオバス３０３は、ホールや会議室におけるメインスピーカに対応するバスである。ステレオバス３０３は、各入力チャンネルから送出される音信号を混合する。ステレオバス３０３は、その混合音信号を、出力チャンネル３０５に出力する。

　ＭＩＸバス３０４は、１または複数の入力チャンネルの音信号の混合音信号をモニタスピーカまたはモニタ用ヘッドフォン等の特定の音響機器に送出するためのバスである。ＭＩＸバス３０４は、混合音信号を、出力チャンネル３０５に出力する。

　出力チャンネル３０５は、ステレオバス３０３およびＭＩＸバス３０４の出力した音信号にイコライザまたはコンプレッサ等のエフェクト処理、およびレベル調整処理等を施す。出力チャンネル３０５は、信号処理を施した後の混合音信号を、出力パッチ３０６に出力する。

　出力パッチ３０６は、出力チャンネルの各チャンネルを、アナログ出力ポートまたはデジタル出力ポートにおける複数のポートのうちいずれか１つのポートに割り当てる。これにより、信号処理を施された後の音信号が、オーディオＩ／Ｏ２０３またはネットワークＩ／Ｆ２０５に供給される。

　本実施形態のオーディオミキサ１は、混合後の音信号が目標特性に近づく様に、複数の入力チャンネルにおけるそれぞれのエフェクト処理およびレベル調整処理等の音処理のパラメータを推定する。

　図５は、パラメータの推定処理を行うＣＰＵ２０６の機能的構成を示すブロック図である。

　ＣＰＵ２０６は、図５に示す様に、エンコーダ５０、目標代替表現選択部５５、推定部５７、および目標受付部８５を備えている。また、フラッシュメモリ２０７は、目標代替表現データベース（ｚｔ　ＤＢ）５９を有する。

　エンコーダ５０は、ニューラルネットワークを用いたデータ圧縮アルゴリズムである。エンコーダ５０は、あるデータを入力し、該入力したデータを別の圧縮データ（代替表現）として出力する。

　代替表現は、音信号の特徴量を表す。代替表現は、エンコーダ５０の訓練結果によって得られる音響特徴空間における値である。本実施形態における代替表現は、第１代替表現および第２代替表現を含む。エンコーダ５０は、第１音信号の第１代替表現および第２音信号の第２代替表現を混合して得られる結果と、第１音信号および第２音信号を混合して得られる結果の特徴量と、が対応するように訓練される。

　本実施形態では、エンコーダ５０は、第１入力チャンネルの第１音信号ｓ１を入力し、入力した第１音信号ｓ１の特徴量に対応する第１代替表現ｚ１を出力する。また、エンコーダ５０は、第２入力チャンネルの第２音信号ｓ２を入力し、入力した第２音信号ｓ２の特徴量に対応する第２代替表現ｚ２を出力する。エンコーダ５０は、第１代替表現ｚ１および第２代替表現ｚ２を混合して得られる第１混合代替表現（ｚ１＋ｚ２）が、第１音信号ｓ１および第２音信号ｓ２を混合した第１混合音信号（ｓ１＋ｓ２）の特徴量に対応するように訓練される。

　図６は、エンコーダ５０の訓練段階における機能的構成を示すブロック図である。エンコーダ５０は、訓練段階において入力層５０１および出力層５０２を有する。入力層５０１は、第１音信号ｓ１および第２音信号ｓ２を入力し、第１音信号ｓ１の特徴量に対応する第１代替表現ｚ１および第２音信号ｓ２の特徴量に対応する第２代替表現ｚ２を出力する。出力層５０２は、第１代替表現ｚ１および第２代替表現ｚ２を入力してデコードし、第１出力音信号ｏｕｔ１および第２出力音信号ｏｕｔ２を出力する。

　エンコーダ５０は、第１の訓練として、第１出力音信号ｏｕｔ１および第２出力音信号ｏｕｔ２がそれぞれ第１音信号ｓ１および第２音信号ｓ２に近づく様に入力層５０１および出力層５０２を訓練する。

　また、出力層５０２は、第１代替表現ｚ１および第２代替表現ｚ２を混合した第１混合代替表現（ｚ１＋ｚ２）を入力してデコードし、混合出力音信号ｏｕｔ　ｍｉｘを出力する。エンコーダ５０は、第２の訓練として、混合出力音信号ｏｕｔ　ｍｉｘが第１音信号ｓ１および第２音信号ｓ２を混合した混合音信号（ｓ１＋ｓ２）に近づく様に入力層５０１および出力層５０２を訓練する。

　以上の様な第１の訓練および第２の訓練を行うことにより、第１代替表現ｚ１および第２代替表現ｚ２を混合して得られる第１混合代替表現（ｚ１＋ｚ２）は、第１音信号ｓ１および第２音信号ｓ２を混合した第１混合音信号（ｓ１＋ｓ２）の特徴量を表す代替表現ｚ（ｓ１＋ｓ２）に対応する。

　図７は、実行段階の動作を示す音処理方法のフローチャートである。エンコーダ５０は、第１音信号ｓ１および第２音信号ｓ２を入力する（Ｓ１１）。第１音信号ｓ１および第２音信号ｓ２は、それぞれ図３に示す第１入力チャンネルおよび第２入力チャンネルからエンコーダ５０に入力される。また、目標受付部８５は、目標特性を有する参照混合音を示す参照データとして、目標特性を有する第２混合音信号ｓｔ　ｍｉｘを受け付け（Ｓ１２）、エンコーダ５０に入力する。第２混合音信号ｓｔ　ｍｉｘは、本発明の参照混合音信号に対応する。

　目標とする第２混合音信号ｓｔ　ｍｉｘは、例えば、特定の曲のオーディオコンテンツ（既存の混合音信号）を取得し、取得したオーディオコンテンツから算出できる。また、第２混合音信号ｓｔ　ｍｉｘは、複数の曲の音信号を蓄積したデータベースから、特定の曲を選択することで取得してもよい。この場合、オーディオミキサ１の利用者は、操作部２０２を操作して曲名を入力する。目標受付部８５は、入力された曲名に基づいてオーディオコンテンツの第２混合音信号を取得できる。また、受付部５１は、出力チャンネル３０５の出力する混合音信号に基づいて曲を特定し、特定した曲に類似する（例えば、同じジャンルの）曲のオーディオコンテンツを取得し、その第２混合音信号を取得してもよい。この場合、音信号と曲名の関係を機械学習した訓練済モデルを用いて、入力した混合音信号から対応する曲名を推定できる。

　なお、目標の第２混合音信号は、オーディオコンテンツの全期間ではなく、そのオーディオコンテンツの一部の、調整したい音源（楽器、歌手など）の音が全て含まれている特定期間（例えば３０秒程度）の混合音信号である。利用者は、特定の曲のオーディオコンテンツの任意の区間や、過去のライブイベントのマルチトラック録音データのうち任意の区間を指定する。また、利用者は、リハーサル時に入力された入力音信号の任意の区間や、ライブイベントのその時点までに入力された入力音信号の任意の区間を指定してもよい。

　目標受付部８５は、曲毎の第２混合音信号を予め取得してフラッシュメモリ２０７に記憶してもよい。あるいは、曲毎の第２混合音信号は、サーバに記憶されていてもよい。目標受付部８５は、入力した曲名（あるいは音信号から特定した曲名）に対応する第２混合音信号をフラッシュメモリ２０７またはサーバ等から取得してもよい。

　また、第２混合音信号は、熟練のオーディオミキサ１の利用者（ＰＡエンジニア）が理想的なパラメータ調整を行った場合における、メインスピーカへの出力音信号から予め求めてもよい。また、第２混合音信号は、熟練のレコーディングエンジニアが編集作業を行った後のオーディオコンテンツから予め求めてもよい。オーディオミキサ１の利用者は、操作部２０２を操作してＰＡエンジニア名またはレコーディングエンジニア名を入力する。目標受付部８５は、ＰＡエンジニア名またはレコーディングエンジニア名を受け付けて、対応する第２混合音信号を取得する。

　また、目標受付部８５は、予め複数のオーディオコンテンツを取得し、取得した複数のオーディオコンテンツに基づいて第２混合音信号を求めてもよい。例えば、第２混合音信号は、複数のオーディオコンテンツで求められる複数の第２混合音信号の平均値であってもよい。この様な平均値は、曲毎、ジャンル毎、あるいはエンジニア毎に求めることができる。

　あるいは、目標受付部８５は、ある訓練済モデルにより求めてもよい。目標受付部８５は、複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する第２混合音信号との関係を機械学習させて訓練済モデルを構築する。また、目標受付部８５は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する第２混合音信号を推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する第２混合音信号を推定できる訓練済モデルを構築してもよい。オーディオミキサ１の利用者は、操作部２０２を操作してジャンル名または曲名を入力する。目標受付部８５は、ジャンル名または曲名を受け付けて、対応する第２混合音信号を受け付ける。

　エンコーダ５０は、第１音信号ｓ１の特徴量に対応する第１代替表現ｚ１、第２音信号ｓ２の特徴量に対応する第２代替表現ｚ２、および第２混合音信号ｓｔ　ｍｉｘの特徴量に対応する第２混合代替表現ｚｔ　ｍｉｘを求める（Ｓ１３）。第２混合代替表現ｚｔ　ｍｉｘは、本発明の参照混合代替表現に対応する。

　次に、どのような音信号を混合すれば目標特性を有する第２混合音信号ｓｔ　ｍｉｘになるかを代替表現として求めるために、目標代替表現選択部５５は、第２混合代替表現ｚｔ　ｍｉｘを用いて第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを選択する（Ｓ１４）。具体的には、目標代替表現選択部５５は、まず、目標代替表現データベース５９から、第１代替表現ｚ１および第２代替表現ｚ２に最も近い第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを初期値として選択する。次に、目標代替表現選択部５５は、目標代替表現データベース５９から、第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔの和が第２混合代替表現ｚｔ　ｍｉｘに一致する様に、後述する所定の手法を用いて第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔの選択を繰り返す。

　第１代替表現ｚ１および第２代替表現ｚ２は、それぞれエフェクト処理が施される前の第１音信号ｓ１および第２音信号ｓ２の特徴量に対応する。また、第２混合代替表現ｚｔ
　ｍｉｘは、第２混合音信号ｓｔ　ｍｉｘの特徴量に対応する。このとき第２混合代替表現ｚｔ　ｍｉｘは、別の表現をすると、第１音信号ｓ１および第２音信号ｓ２にエフェクト処理を施した後に混合する音信号の目標となる特徴量でもある。したがって目標代替表現選択部５５が第２混合代替表現ｚｔ　ｍｉｘを用いて第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを選択することは、エフェクト処理を施した音信号がそれぞれどのような特徴量を持っていれば良いかという点を考慮して、第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを選択することとなる。

　目標代替表現選択部５５は、例えばＬＭＳ（Ｌｅａｓｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）あるいは再帰的最小二乗法（Ｒｅｃｕｒｓｉｖｅ　Ｌｅａｓｔ－Ｓｑｕａｒｅｓ）等の適応アルゴリズムを用いて、第１目標代替表現ｚ１ｔおよび第２目標代替表現ｚ２ｔの和（ｚ１ｔ＋ｚ２ｔ）と、第２混合代替表現ｚｔ　ｍｉｘとの差（｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）が最小になるまで、目標代替表現データベース５９から、第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔの選択を繰り返す（ｓ１５：Ｎｏ）。目標代替表現選択部５５は、上記の差（｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）が最小となった場合（Ｓ１５：Ｙｅｓ）、第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを決定する（Ｓ１６）。

　なお、目標代替表現選択部５５は、上記の差（｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）が最小となる第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔが複数求められる場合、以下の処理を行ってもよい。

　目標代替表現選択部５５は、第１代替表現ｚ１および第１目標代替表現ｚ１ｔの差（｜ｚ１－ｚ１ｔ｜）、第２代替表現ｚ２および第２目標代替表現ｚ２ｔの差（｜ｚ２－ｚ２ｔ｜）、ならびに第１目標代替表現ｚ１ｔおよび第２目標代替表現ｚ２ｔの和（｜ｚ１ｔ＋ｚ２ｔ｜）と第２混合代替表現ｚｔ　ｍｉｘとの差（｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）の重み付け和（ｗ１・｜ｚ１－ｚ１ｔ｜＋ｗ２・｜ｚ２－ｚ２ｔ｜＋λ・｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）が最小となるような第１目標代替表現ｚ１ｔおよび第２目標代替表現ｚ２ｔを選択する。

　これにより、目標代替表現選択部５５は、第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを一意に決定することができる。この場合、例えば第１チャンネルがボーカルである場合に、利用者は、係数ｗ１を大きく設定すればボーカルに重みを付けることができ、ボーカルの音信号に施すエフェクト処理のパラメータを大きく変更することができる。

　なお、目標代替表現選択部５５は、予め、上記の差（｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）、または重み付け和（ｗ１・｜ｚ１－ｚ１ｔ｜＋ｗ２・｜ｚ２－ｚ２ｔ｜＋λ・｜ｚ１ｔ＋ｚ２ｔ－ｚｔ　ｍｉｘ｜）が最小となる様に、第１目標代替表現ｚ１ｔ、第２目標代替表現ｚ２ｔ、および第２混合代替表現ｚｔ　ｍｉｘの関係を機械学習した訓練済モデルを用いて第１目標代替表現ｚ１ｔおよび第２目標代替表現ｚ２ｔを求めてもよい。

　そして、推定部５７は、第１音信号ｓ１に対して音処理を行った後の第１エフェクト信号ｓ１ｅの特徴量である第１エフェクト代替表現ｚ１ｅと、第１目標代替表現ｚ１ｔと、を用いて第１音信号ｓ１に対する音処理の第１パラメータＰ１を推定する。また、推定部５７は、第２音信号ｓ２に対して音処理を行った後の第２エフェクト信号ｓ２ｅの特徴量である第２エフェクト代替表現ｚ２ｅと、第２目標代替表現ｚ２ｔと、を用いて第２音信号ｓ２に対する音処理の第２パラメータＰ２を推定する。第１パラメータＰ１は、図３に示す第１入力チャンネルの入力信号処理部３５０の用いるパラメータである。第２パラメータＰ２は、図３に示す第２入力チャンネルの入力信号処理部３５０の用いるパラメータである。

　具体的には、推定部５７は、まず、第１パラメータＰ１の初期値Ｐ１　ｉｎｉｔを決定し（Ｓ１７）、初期値Ｐ１　ｉｎｉｔを用いて、第１入力チャンネルの入力信号処理部３５０で第１音信号ｓ１に音処理を行い、第１エフェクト信号ｓ１ｅを得る（Ｓ１８）。推定部５７は、第１エフェクト信号ｓ１ｅをエンコーダ５０で変換し、第１エフェクト代替表現ｚ１ｅを求める（Ｓ１９）。

　そして、推定部５７は、例えばＬＭＳ（Ｌｅａｓｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）あるいは再帰的最小二乗法（Ｒｅｃｕｒｓｉｖｅ　Ｌｅａｓｔ－Ｓｑｕａｒｅｓ）等の適応アルゴリズムを用いて、第１目標代替表現ｚ１ｔと第１エフェクト代替表現ｚ１ｅの差（｜ｚ１ｔ－ｚ１ｅ｜）が最小になるまで、第１パラメータＰ１の更新を繰り返す（ｓ２０：Ｎｏ→Ｓ２１）。推定部５７は、上記の差（｜ｚ１ｔ－ｚ１ｅ｜）が最小となった場合（Ｓ２０：Ｙｅｓ）、第１パラメータＰ１を決定する（Ｓ２２）。

　同様に、推定部５７は、第２パラメータＰ２の初期値Ｐ２　ｉｎｉｔを決定し（Ｓ２３）、初期値Ｐ２　ｉｎｉｔを用いて、第２入力チャンネルの入力信号処理部３５０で第２音信号ｓ２に音処理を行い、第２エフェクト信号ｓ２ｅを得る（Ｓ２４）。推定部５７は、第２エフェクト信号ｓ２ｅをエンコーダ５０で変換し、第２エフェクト代替表現ｚ２ｅを求める（Ｓ２５）。推定部５７は、例えばＬＭＳ（Ｌｅａｓｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）あるいは再帰的最小二乗法（Ｒｅｃｕｒｓｉｖｅ　Ｌｅａｓｔ－Ｓｑｕａｒｅｓ）等の適応アルゴリズムを用いて、第２目標代替表現ｚ２ｔと第２エフェクト代替表現ｚ２ｅの差（｜ｚ２ｔ－ｚ２ｅ｜）が最小になるまで、第２パラメータＰ２の更新を繰り返す（ｓ２６：Ｎｏ→Ｓ２７）。推定部５７は、上記の差（｜ｚ１ｔ－ｚ１ｅ｜）が最小となった場合（Ｓ２６：Ｙｅｓ）、第２パラメータＰ２を決定する（ｓ２８）。

　第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔを加算した結果は、第２混合代替表現（参照混合代替表現）ｚｔ　ｍｉｘに近づく。この様に、本実施形態のオーディオミキサ１は、第１代替表現ｚ１が第１目標代替表現ｚ１ｔに近づく様なエフェクトパラメータ、および第２代替表現ｚ２が第２目標代替表現ｚ２ｔに近づく様なエフェクトパラメータを推定することで、出力チャンネル３０５の出力する混合音信号の特徴量を目標の特徴量に近づけるための音処理のパラメータを求めることができる。音処理は、例えばコンプレッサまたはイコライザを含む。特にイコライザは、特徴量の一例である振幅スペクトルを調整する音処理であるため、本実施形態の音処理方法を適用するのに好適である。

　なお、音処理は、単一のエフェクト処理であってもよいし、コンプレッサおよびイコライザを含む複数のエフェクト処理であってもよい。また、音処理は、入力信号処理部３５０のエフェクト処理だけでなく、ＦＡＤＥＲ３５１におけるレベル調整処理を含んでもよい。本実施形態の音処理方法は、複数のエフェクト処理、レベル調整処理、および混合処理を含む音処理後の混合音信号の特徴量が目標の第２混合音信号ｓｔ　ｍｉｘの特徴量に近づく様に、それぞれの処理のパラメータを求めることができる。

　上述の様に、第１目標代替表現ｚ１ｔと第２目標代替表現ｚ２ｔとの和（ｚ１ｔ＋ｚ２ｔ）は、目標の混合音信号の第２混合代替表現ｚｔ　ｍｉｘに近づく様になっている。特徴量を示す第１目標代替表現ｚ１ｔおよび第２目標代替表現ｚ２ｔの和は、位相情報を含む時間軸上の第１音信号ｓ１および第２音信号ｓ２を混合してエフェクト処理を行った後の音信号の特徴量に対応している。言い換えると、第１目標代替表現ｚ１ｔおよび第２目標代替表現ｚ２ｔの和は、位相情報を含めた第１音信号ｓ１および第２音信号ｓ２を混合した音信号の特徴量に対応している。

　したがって、本実施形態の音処理方法は、音響特徴空間における代替表現を用いることで計算量を低減しながらも、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。

　（変形例１）　
　エンコーダ５０に入力する音信号は、時間軸上の音信号でもよいが、パワー、振幅スペクトル、基本周波数、スペクトル包絡、フォルマント周波数、メルスペクトル包絡、メルスペクトル、またはケプストラム等の特徴量であってもよい。

　変形例１のエンコーダ５０に入力する音信号は、メルスペクトル包絡である。エンコーダ５０は、訓練段階および実行段階の両方において、音信号としてメルスペクトル包絡を入力する。

　メルスペクトル包絡は、音の特徴量を示す指標であり、かつ時間軸上の音信号よりも次元の低い情報である。メルスペクトル包絡は、スペクトル包絡にメルフィルタバンクを畳み込むことで求める。メルフィルタバンクは、低周波数ほど帯域幅が狭く、高周波数ほど帯域幅が大きくなる複数のバンドパスフィルタからなる。当該複数のバンドパスフィルタの各帯域幅は、人間の聴覚特性に対応する。したがって、メルスペクトル包絡は、音の特徴量を抽出したものである。

　スペクトル包絡は、例えば、音信号から線形予測法（Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ：ＬＰＣ）またはケプストラム分析法等により求める。例えば、ＣＰＵ２０６は、短時間フーリエ変換により混合音信号を周波数軸に変換し、混合音信号の振幅スペクトルを取得する。ＣＰＵ２０６は、特定期間について振幅スペクトルを平均化し、平均スペクトルを取得する。ＣＰＵ２０６は、平均スペクトルからエネルギ成分であるバイアス（ケプストラムの０次成分）を除去し、混合音信号のスペクトル包絡を取得する。なお、時間軸方向への平均化とバイアスの除去は、どちらを先に行ってもよい。すなわち、ＣＰＵ２０６は、まず振幅スペクトルからバイアスを除去した後に、時間軸方向に平均化した平均スペクトルをスペクトル包絡として取得してもよい。

　ＣＰＵ２０６は、第１音信号ｓ１、第２音信号ｓ２、目標とする第２混合音信号ｓｔ　ｍｉｘのそれぞれのスペクトル包絡を求めて、メルフィルタバンクを畳み込み、メルスペクトル包絡を得る。

　エンコーダ５０は、第１音信号ｓ１、第２音信号ｓ２、目標とする第２混合音信号ｓｔ
　ｍｉｘのそれぞれのメルスペクトル包絡を入力する。エンコーダ５０は、より次元数の低い代替表現を出力する。

　メルスペクトル包絡は、位相情報が失われているが、第１代替表現ｚ１および第２代替表現ｚ２の和は、位相情報を含む時間軸上の第１音信号ｓ１および第２音信号ｓ２を混合した後の第１混合音信号（ｓ１＋ｓ２）の特徴量に対応している。したがって、変形例１の音処理方法は、メルスペクトル包絡を入力し、より次元数の低い代替表現を用いてさらに計算量を低減しながらも、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。

　（変形例２）　
　上記実施形態では、目標受付部８５は、目標特性を有する参照混合音を示す参照データとして、目標特性を有する第２混合音信号ｓｔ　ｍｉｘを受け付けた。また、上記実施形態では、エンコーダ５０を用いて第２混合音信号ｓｔ　ｍｉｘを第２混合代替表現ｚｔ　ｍｉｘにエンコードする例を示した。

　しかし、参照データは、目標特性を有する参照混合音信号を示す識別情報であってもよい。識別情報とは、例えば曲名、ジャンル名、あるいはエンジニア名等である。目標受付部８５は、複数の参照混合代替表現を記憶したデータベースより、識別情報に対応した第２混合代替表現ｚｔ　ｍｉｘを獲得してもよい。

例えば、目標受付部８５は、ある訓練済モデルにより、予め多数の第２混合音信号ｓｔ　ｍｉｘを第２混合代替表現ｚｔ　ｍｉｘにエンコードしてデータベース（自装置またはサーバ等）に記憶する。目標受付部８５は、例えば複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する第２混合代替表現ｚｔ　ｍｉｘとの関係を機械学習させて訓練済モデルを構築する。また、目標受付部８５は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する第２混合代替表現ｚｔ　ｍｉｘを推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する第２混合代替表現ｚｔ　ｍｉｘを推定できる訓練済モデルを構築してもよい。これにより、データベースは、ジャンル名または曲名等の識別情報に対応する第２混合代替表現ｚｔ　ｍｉｘを記憶する。オーディオミキサ１の利用者は、操作部２０２を操作してジャンル名または曲名を入力する。目標受付部８５は、ジャンル名または曲名を受け付けて、対応する第２混合代替表現ｚｔ　ｍｉｘをデータベースから獲得する。

　本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、請求の範囲によって示される。さらに、本発明の範囲には、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　例えば、上述の実施形態で示したパラメータ推定方法は、オーディオミキサ１ではなくサーバで行ってもよい。この場合、オーディオミキサ１は、ネットワークＩ／Ｆ２０５を介して第１音信号ｓ１および第２音信号ｓ２をサーバに送信する。また、オーディオミキサ１は、参照データ（目標特性を有する参照混合音信号、またはその参照混合音信号を示す識別情報）をサーバに送信する。サーバは、第１音信号ｓ１、第２音信号ｓ２、および参照データに基づいて第１パラメータＰ１および第２パラメータＰ２を決定する。オーディオミキサ１は、サーバで決定された第１パラメータＰ１および第２パラメータＰ２を受信する。オーディオミキサ１は、受信した第１パラメータＰ１および第２パラメータＰ２を用いて第１入力チャンネルの入力信号処理部３５０および第２入力チャンネルの入力信号処理部３５０で信号処理を行う。あるいは、サーバは、決定した第１パラメータＰ１および第２パラメータＰ２を用いて第１音信号ｓ１および第２音信号ｓ２に信号処理を行い、信号処理後の第１エフェクト信号ｓ１ｅおよび第２エフェクト信号ｓ２ｅをオーディオミキサ１に送信してもよい。

１　　　　：オーディオミキサ５０　　　：エンコーダ５１　　　：受付部５５　　　：目標代替表現選択部５７　　　：推定部５９　　　：目標代替表現データベース６１　　　：チャンネルストリップ８５　　　：目標受付部１７１　　：バス１７２　　：波形バス２０１　　：表示器２０２　　：操作部２０３　　：オーディオＩ／Ｏ２０４　　：信号処理部２０５　　：ネットワークＩ／Ｆ２０６　　：ＣＰＵ２０７　　：フラッシュメモリ２０８　　：ＲＡＭ３０１　　：入力パッチ３０２　　：入力チャンネル３０３　　：ステレオバス３０４　　：ＭＩＸバス３０５　　：出力チャンネル３０６　　：出力パッチ３５０　　：入力信号処理部３５３　　：センドレベル調整回路５０１　　：入力層５０２　　：出力層

Claims

　信号処理され混合される第１音信号と第２音信号を受け取り、
　エンコーダを用いて前記第１音信号と前記第２音信号を処理して、前記第１音信号の特徴量に対応する第１代替表現と前記第２音信号の特徴量に対応する第２代替表現とを生成し、前記エンコーダは、前記第１代替表現および前記第２代替表現を混合して得られる混合代替表現が、前記第１音信号および前記第２音信号を混合した混合音信号の特徴量に対応するよう訓練されており、
　目標特性を有する参照混合音を示す参照データを受け付け、
　前記参照データに対応する参照混合代替表現を用いて、第１目標代替表現と第２目標代替表現とを選択し、
　前記第１代替表現と前記第１目標代替表現を用いて、前記第１音信号に対する前記信号処理に用いる第１パラメータを推定し、
　前記第２代替表現と前記第２目標代替表現を用いて、前記第２音信号に対する前記信号処理に用いる第２パラメータを推定する、
　コンピュータで実現されるパラメータ推定方法。
　前記参照データは、前記目標特性を有する参照混合音信号であり、
　前記選択は、
　前記エンコーダを用いて、前記目標とする参照混合音信号を処理して、前記参照混合代替表現を生成すること、および
　前記生成された参照混合代替表現を用いて、前記第１目標代替表現と前記第２目標代替表現とを選択すること、を含む、
　請求項１に記載のパラメータ推定方法。
　前記参照データは、前記目標特性を有する参照混合音信号を示す識別情報であり、
　前記選択は、
　複数の参照混合代替表現を記憶したデータベースより、前記識別情報に対応した前記参照混合代替表現を獲得すること、および
　前記獲得された参照混合代替表現を用いて、前記第１目標代替表現と前記第２目標代替表現とを選択すること、を含む、
　請求項１に記載のパラメータ推定方法。
　前記推定は、前記第１代替表現と前記第１目標代替表現との差が小さくなるように前記第１パラメータと、前記第２代替表現と前記第２目標代替表現との差が最小となるような前記第２パラメータと、を推定する、
　請求項１乃至請求項３のいずれか１項に記載のパラメータ推定方法。
　前記目標代替表現の選択は、前記第１目標代替表現および前記第２目標代替表現の和と、前記参照混合代替表現との差が小さくなるように前記第１目標代替表現および前記第２目標代替表現を選択する、
　請求項１乃至請求項３のいずれか１項に記載のパラメータ推定方法。
　前記目標代替表現の選択は、前記第１代替表現と前記第１目標代替表現との差、前記第２代替表現と前記第２目標代替表現との差、ならびに前記第１目標代替表現および前記第２目標代替表現の和と前記参照混合代替表現との差、の重み付け和がちいさくなるように前記第１目標代替表現および前記第２目標代替表現を選択する、
　請求項５に記載のパラメータ推定方法。
　前記特徴量はメルスペクトル包絡である、
　請求項１乃至請求項３のいずれか１項に記載のパラメータ推定方法。
　前記信号処理はイコライザを含む、
　請求項１乃至請求項３のいずれか１項に記載のパラメータ推定方法。
　前記信号処理はコンプレッサを含む、
　請求項１乃至請求項３のいずれか１項に記載のパラメータ推定方法。
　前記エンコーダは、エンコードを行う入力層、およびデコードを行う出力層を含み、
　前記エンコーダは、前記出力層で前記混合代替表現をデコードした特徴量が、前記混合音信号の特徴量に対応するように、前記入力層および前記出力層が訓練される、
　請求項１乃至請求項３のいずれか１項に記載のパラメータ推定方法。
　信号処理され混合される第１音信号と第２音信号を受け取り、前記第１音信号と前記第２音信号を処理して、前記第１音信号の特徴量に対応する第１代替表現と前記第２音信号の特徴量に対応する第２代替表現とを生成するエンコーダであって、前記第１代替表現および前記第２代替表現を混合して得られる混合代替表現が、前記第１音信号および前記第２音信号を混合した混合音信号の特徴量に対応するよう訓練されているエンコーダと、
　目標特性を有する参照混合音を示す参照データを受け付ける目標受付部と、
　前記参照データに対応する参照混合代替表現を用いて、第１目標代替表現と第２目標代替表現とを選択する目標代替表現選択部と、
　前記第１代替表現と前記第１目標代替表現を用いて、前記第１音信号に対する前記信号処理に用いる第１パラメータを推定し、前記第２代替表現と前記第２目標代替表現を用いて、前記第２音信号に対する前記信号処理に用いる第２パラメータを推定する、推定部と、
　を備えた音処理装置。
　信号処理され混合される第１音信号と第２音信号を受け取り、
　エンコーダを用いて前記第１音信号と前記第２音信号を処理して、前記第１音信号の特徴量に対応する第１代替表現と前記第２音信号の特徴量に対応する第２代替表現とを生成し、前記エンコーダは、前記第１代替表現および前記第２代替表現を混合して得られる混合代替表現が、前記第１音信号および前記第２音信号を混合した混合音信号の特徴量に対応するよう訓練されており、
　目標特性を有する参照混合音を示す参照データを受け付け、
　前記参照データに対応する参照混合代替表現を用いて、第１目標代替表現と第２目標代替表現とを選択し、
　前記第１代替表現と前記第１目標代替表現を用いて、前記第１音信号に対する前記信号処理に用いる第１パラメータを推定し、前記第２代替表現と前記第２目標代替表現を用いて、前記第２音信号に対する前記信号処理に用いる第２パラメータを推定する、
　処理をコンピュータに実行させる音処理プログラム。
　第１音信号および第２音信号を入力して得られる第１代替表現および第２代替表現を混合して得られる混合代替表現が、前記第１音信号および前記第２音信号を混合した混合音信号の特徴量に対応するエンコーダを用いて、
　目標とする音信号の特徴量に対応する代替表現と前記混合代替表現との差分から、
　前記第１音信号と前記第２音信号それぞれに対するエフェクトのパラメータを推定する、
　コンピュータで実現されるパラメータ推定方法。
　前記推定されたエフェクトのパラメータを用いて、前記第１音信号と前記第２音信号に音処理を行う、請求項１３に記載のパラメータ推定方法。