WO2023053480A1

WO2023053480A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2023053480A1
Application number: PCT/JP2022/006048
Authority: WO
Inventors: 直也高橋
Original assignee: ソニーグループ株式会社
Priority date: 2021-09-28
Filing date: 2022-02-16
Publication date: 2023-04-06
Also published as: EP4411733A1; CN117980990A

Abstract

例えば、電子透かし情報を適切に抽出できるようにする。　複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出するデコーダを有し、付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　ＤＮＮ（Deep Neural Network）ベースの音源分離等、音源分離に関する種々の提案がなされている（例えば、下記特許文献１を参照のこと）。近年では、分離された音源（以下、分離信号とも適宜、称する）の二次利用なども可能になっている。また、他の音源信号と混合されることを前提するような音源素材としての流通も行われている。

国際公開２０１８／０４７６４３号

　ところで、分離信号そのもの、若しくは、分離信号が他の音源信号と混合される場合に、如何に分離信号の乱用を防止し、音源制作者（各音源信号の制作者や分離前の混合音信号の制作者等）の権利を保護するかが問題となっている。音声信号に情報を埋め込む一般的な電子透かし技術は、元の混合音信号や音源信号がそのまま流通することを前提としており、混合音信号に対して音源分離がなされたり、元の音源信号が他の音源信号と混合されることが想定されていない。すなわち、元の混合音信号や音源信号に対して、音源分離や複数の音源信号を混合する処理がなされた場合には、元の信号に埋め込まれていた電子透かし情報が検出困難となり、著作権が保護できない場合や、混合音信号や音源信号の円滑な流通が阻害されてしまう虞があるという問題があった。

　本開示は、電子透かし情報等の、信号に埋め込まれた情報を適切に検出できる情報処理装置、情報処理方法およびプログラムを提供することを目的の一つとする。

　本開示は、例えば、
　複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出するデコーダを有し、
　付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる
　情報処理装置である。

　本開示は、例えば、
　デコーダが、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出し、
　付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる
　情報処理方法である。

　本開示は、例えば、
　デコーダが、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出し、
　付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる
　情報処理方法をコンピュータに実行させるプログラムである。

　本開示は、例えば、
　複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませるコンシーラを有し、
　付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる
　情報処理装置である。

　本開示は、例えば、
　コンシーラが、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませる処理を行い、
　付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる
　情報処理方法である。

　本開示は、例えば、
　コンシーラが、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませる処理を行い、
　付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる
　情報処理方法をコンピュータに実行させるプログラムである。

図１は、実施形態に係るシステムの概要を説明するための図である。図２は、実施形態に係る再生装置の構成例を示すブロック図である。図３は、実施形態に係るシステム構成例を説明するための図である。図４は、実施形態に係る別のシステム構成例を説明するための図である。図５は、実施形態に係る別のシステム構成例を説明するための図である。図６は、実施形態に係るコンシーラおよびデコーダで適用され得る学習モデルについての説明がなされる際に参照される図である。図７は、実施形態で得られる効果についての説明がなされる際に参照される図である。図８Ａは、本開示に適用可能なＵＩ(User Interface)の一例を説明するための図である。図８Ｂは、本開示に適用可能なＵＩの一例を説明するための図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜一実施形態＞
＜変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜一実施形態＞
［再生システムの構成例］
　図１は、一実施形態に係る再生システム（再生システム１）の構成例を示す。再生システム１は、ネットワークＮＷを介して接続される、配信装置２および再生装置３を有する。配信装置２および再生装置３は、複数あってもよい。配信装置２および再生装置３が情報処理装置の一例に対応している。ネットワークＮＷは、インターネットが代表的な例であるが、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）等何でもよい。また、配信装置２と再生装置３とが有線により接続されていてもよい。本実施形態では、再生装置３をスマートフォンとして説明するが、再生装置３は、パーソナルコンピュータや、ヘッドホンやイヤホン等のヒアラブル機器や他のウエアラブル機器等、何でもよい。

　一例として、配信装置２は、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませるコンシーラを有する。ここで、付加情報の付加による音源信号および混合音信号の変化が知覚不可能とされる。付加情報を含む混合音信号がネットワークＮＷを介して再生装置３に送信される。再生装置３は、例えば、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出するデコーダを有する。付加情報の付加による音源信号および混合音信号の変化は、知覚不可能とされる。なお、本明細書において知覚不可能とは、付加情報の付加による音源信号および混合音信号の変化が、ユーザー（音源信号や混合音信号の聴取者）が知覚できないレベルであることを意味する。コンシーラおよびデコーダは、ニューラルネットワークで構成されている。また、コンシーラに適用される学習モデルおよびデコーダに適用される学習モデルとしては、後述する学習により得られる同一の学習モデルが適用され得る。なお、本実施形態では、付加情報として電子透かし情報を例にして説明するが、付加情報は、音源信号の種別や音源信号に関する情報（楽曲名やアーティスト名等）でもよいし、これらを含む電子透かし情報であってもよい。

［再生装置の構成例］
　図２は、一実施形態に係る再生装置３の構成例を示すブロック図である。再生装置３は、制御部３０１と、マイクロフォン３０２Ａと、マイクロフォン３０２Ａに接続される音声信号処理部３０２Ｂと、カメラユニット３０３Ａと、カメラユニット３０３Ａに接続されるカメラ信号処理部３０３Ｂと、ネットワークユニット３０４Ａと、ネットワークユニット３０４Ａに接続されるネットワーク信号処理部３０４Ｂと、スピーカ３０５Ａと、スピーカ３０５Ａに接続される音声再生部３０５Ｂと、ディスプレイ３０６Ａと、ディスプレイ３０６Ａに接続される画面表示部３０６Ｂとを有している。音声信号処理部３０２Ｂ、カメラ信号処理部３０３Ｂ、ネットワーク信号処理部３０４Ｂ、音声再生部３０５Ｂ、および、画面表示部３０６Ｂのそれぞれは、制御部３０１に対して接続されている。

　制御部３０１は、ＣＰＵ（Central Processing Unit）等により構成されている。制御部３０１は、プログラムが格納されるＲＯＭ(Read Only Memory)や、プログラムが実行される際のワークエリアとして用いられるＲＡＭ（Random Access Memory）等を有している（これらの図示は省略されている。）。制御部３０１は、再生装置３を統括的に制御する。

　マイクロフォン３０２Ａは、ユーザーの発話等を収音する。音声信号処理部３０２Ｂは、マイクロフォン３０２Ａを介して収音された音の音声データに対して、公知の音声信号処理を行う。

　カメラユニット３０３Ａは、レンズ等の光学系や撮像素子等を含む。カメラ信号処理部３０３Ｂは、カメラユニット３０３Ａを介して取得される画像（静止画でも動画でも良い）に対して、Ａ／Ｄ(Analog to Digital)変換処理や、各種の補正処理、物体検出処理等の画像信号処理を行う。

　ネットワークユニット３０４Ａは、アンテナ等を含む。ネットワーク信号処理部３０４Ｂは、ネットワークユニット３０４Ａを介して送受信されるデータに対して、変復調処理やエラー訂正処理等を行う。

　音声再生部３０５Ｂは、スピーカ３０５Ａから音を再生するための処理を行う。音声再生部３０５Ｂは、例えば、増幅処理やＤ／Ａ変換処理を行う。また、音声再生部３０５Ｂは、スピーカ３０５Ａから再生する音を生成する処理を行う。

　また、音声再生部３０５Ｂは、音源分離部３０５Ｃを含む。音源分離部３０５Ｃは、複数の音源信号が混合され、さらに、音源分離の性能を向上させるように最適化された摂動が混合された混合音信号に対して、音源分離を行う。なお、混合音信号を再生する場合、すなわち、音源分離を行わない場合は、音源分離部３０５Ｃを動作させないようにする制御が制御部３０１により行われる。音源分離された分離信号のうち一部の分離信号がスピーカ３０５Ａから再生されてもよいし、各分離信号が適宜なメモリに記憶されてもよい。

　また、音声再生部３０５Ｂは、デコーダ３０５Ｄを含む。上述したように、デコーダ３０５Ｄは、複数の音源信号を含む混合音信号若しくは混合音信号から音源分離された分離信号から電子透かし情報を抽出する。なお、音源分離部３０５Ｃおよびデコーダ３０５Ｄは、必ずしも音声再生部３０５Ｂに含まれている必要はない。また、後述するように、デコーダ３０５は１つのデコーダにより構成される場合もあれば複数のデコーダにより構成される場合もある。

　ディスプレイ３０６Ａとしては、ＬＣＤ(Liquid Crystal Display)や有機ＥＬ（Electro Luminescence）ディスプレイが適用され得る。画面表示部３０６Ｂは、ディスプレイ３０６Ａに各種の情報を表示するための公知の処理を行う。なお、ディスプレイ３０６Ａがタッチパネルとして構成されていても良い。この場合には、画面表示部３０６Ｂは、タッチ操作に伴う操作位置を検出処理等も行う。

［一実施形態のシステム構成例］
（第１の例）
　次に、図３から図５を参照しつつ、一実施形態のシステム構成例について説明する。始めに、図３を参照しつつ第１の例について説明する。

　第１の例は、３つの音源信号（音源信号XA、XB、XC）によって混合音信号xが構成される例である。音源信号XAは例えばドラムの音源信号であり、音源信号XBは例えばボーカルの音源信号であり、音源信号XCは例えばピアノの音源信号である。配信装置２は、例えば、コンシーラ４１および加算器６１を有する。再生装置３は、上述したデコーダ３０５Ｄに対応するデコーダ５１を有する。

　コンシーラ４１は、複数の音源信号のうちの一部の音源信号、例えばドラムの音源信号XAに、学習モデル１００を適用して電子透かし情報ＷＩを含ませる（埋め込む）。電子透かし情報ＷＩを含むドラムの音源信号XAと、電子透かし情報ＷＩを含まないボーカルの音源信号XBと、電子透かし情報ＷＩを含まないピアノの音源信号XCとが、加算器６１により加算されることにより混合音信号Xが生成される。混合音信号Xが通信部（不図示）を介して再生装置３に伝送される。なお、混合音信号Xは、適宜な方式で圧縮されてもよい。

　再生装置３では、通信部（不図示）を介して混合音信号Xが受信される。デコーダ５１は、学習モデル１００を適用して混合音信号Xに含まれる電子透かし情報ＷＩを抽出する。再生装置３では、例えば電子透かし情報ＷＩを用いた認証を行うことにより音声再生部３０５Ｂによる混合音信号Xの再生が許可される。

（第２の例）
　次に、図４を参照しつつ、第２の例について説明する。第２の例では、コンシーラ４１が混合音信号Xに対して電子透かし情報ＷＩを含ませる。混合音信号Xを構成する音源信号としては、第１の例と同じ音源信号（音源信号XA～XC）を適用することができる。

　再生装置３は、例えば、デコーダ５１Ａ～５１Ｃを有している。デコーダ５１Ａ～５１Ｃは、対応する音源信号に含まれる電子透かし情報ＷＩを抽出する。再生装置３で受信された混合音信号Xは、音源分離部３０５Ｃにより音源分離されることで分離信号XA’～XC’に分離される。音源分離部３０５Ｃは、例えば、ＤＮＮベースの音源分離モデルを適用することで音源分離を行う。

　後述する学習を行うことにより得られる学習モデル１００を適用することで、混合音信号Xに埋め込まれた電子透かし情報ＷＩを、音源分離結果に残すことができる。デコーダ５１Ａは、学習モデル１００を適用することにより分離信号XA’に含まれる電子透かし情報ＷＩを抽出する。デコーダ５１Ｂは、学習モデル１００を適用することにより分離信号XB’に含まれる電子透かし情報ＷＩを抽出する。デコーダ５１Ｃは、学習モデル１００を適用することにより分離信号XC’に含まれる電子透かし情報ＷＩを抽出する。

（第３の例）
　次に、図５を参照しつつ、第３の例について説明する。第３の例は、混合音信号Xがドラムの音源信号XAとピアノの音源信号XBにより構成される例であり、各音源信号に電子透かし情報が埋め込まれている例である。また、配信装置２は、各音源信号に対応するコンシーラ４１Ａ、４１Ｂを有している。コンシーラ４１Ａは、学習モデル１００を適用することにより、音源信号XAに電子透かし情報ＷＩａを埋め込む。また、コンシーラ４１Ｂは、学習モデル１００を適用することにより、音源信号XBに電子透かし情報ＷＩｂを埋め込む。本例のように、コンシーラは、並列的に処理を行う複数のコンシーラを含む構成もあり得る。１個のコンシーラが、電子透かし情報ＷＩａ、ＷＩｂを埋め込む処理を順次、行うようにしてもよい。電子透かし情報が埋め込まれた２つの信号が加算器６２で加算されることで、本例における混合音信号Xが生成される。

　混合音信号Xに対して、音源分離部３０５Ｃによる音源分離処理が行われることにより、分離信号XA’と分離信号XB’とが生成される。デコーダ５１Ａは、分離信号XA’に対して学習モデル１００を適用した処理を行うことにより、分離信号XA’に含まれる電子透かし情報ＷＩａを抽出する。また、デコーダ５１Ｂは、分離信号XB’に対して学習モデル１００を適用した処理を行うことにより、分離信号XB’に含まれる電子透かし情報ＷＩｂを抽出する。なお、本例において、一部の音源信号（例えば、ドラムの音源信号XA）のみに電子透かし情報が埋め込まれるようにしてもよいし、一部の音源信号または全部の音源信号と、混合音信号との両方に電子透かし情報が埋め込まれるようにしてもよい。

［学習モデルについて］
　次に、図６を参照しつつ、本実施形態に係るコンシーラおよびデコーダで適用され得る学習モデルについて説明する。図６は、本実施形態で行われる処理を一般化した図である。なお、図６では、処理を一般化して示しているため、本実施形態で行われ得る全ての処理を含むような図示がなされているが、図６に示される処理の全てが必ず行われる必要はない。

　図６において、

は、コンシーラを示し

は、デコーダを示す。
また、

は、音源信号を示す。但し、この音源信号は、１つの音源信号でもよいし、複数の音源信号の混合音信号でもよい。また、

は、電子透かし情報を示す。

　また、

は、電子透かし情報が埋め込まれた音源信号を示す。

は、各音源信号を加算した信号、すなわち、混合音信号を示す。

は、音源分離処理により得られる分離信号を示し、

は、

を、加算や音源分離することなくデコーダがデコードすることで得られる電子透かし情報を示し、

は、

をデコーダがデコードすることで得られる電子透かし情報を示す。

　ここで、電子透かし情報が埋め込まれる音源信号の集合を

とし、電子透かし情報が埋め込まれない音源信号の集合を

とする。n＝Nの場合は、全ての音源信号に電子透かし情報を埋め込むことを意味する。

　ある音源信号

に対して電子透かし情報

が埋め込まれた信号は

と表すことができる。

　上述した集合を踏まえると、混合音信号

は、

と表すことができる。

　また、音源分離モデル（例えば、学習モデル１００と同じモデル）をfとすると、音源分離結果は、

と表すことができる。
なお、音源分離モデルｆは複数の音源分離モデル

の重み付き平均であってもよい。

　また、音源分離を行わずに、音源信号に対してデコードすることで得られる電子透かし情報は、

と表すことができ、
音源分離を行った結果である分離信号に対してデコードすることで得られる電子透かし情報は、

と表すことができる。

　学習モデル１００は、下記の式（１）に示される損失関数Lを最小化する学習を行うことにより得られる。係る学習の結果に基づいて、コンシーラとデコーダのニューラルネットワークのパラメータが最適化される。最適化手法としては、例えば、確率的勾配法を用いることができる。
式（１）

　式（１）におけるλ₁～λ₄は、重みパラメータである。また、d_c、d_mは、誤差関数であり、本例ではd_cとしてL1ノルム（距離）、d_mとしてクロスエントロピーを用いている。すなわち、本実施形態に係る学習モデル１００は、音源信号に電子透かし情報を含ませる前後における音源信号間の誤差関数、音源信号に電子透かし情報を含ませた信号と音源分離により得られる当該音源信号に対応する信号との間の誤差関数、音源信号に含ませる前後における電子透かし情報間の誤差関数、および、音源信号に含ませる前の電子透かし情報と音源分離により得られる当該音源信号に含まれる電子透かし情報との間の誤差関数に基づく損失関数を最小化する学習を行うことにより得られるモデルである。

　式（１）の右辺における第１項は、電子透かし情報が埋め込まれる前の音源信号と埋め込まれた後の音源信号とが音響的な性質（周波数特性等）においてできるだけ近くなるようにするための項である。式（１）の右辺における第２項は、音源分離前の音源信号と音源分離後の音源信号とが音響的な性質においてできるだけ近くなるようにするための項である。式（１）の右辺における第３項は、他の音源信号との混合および音源分離をせずにデコードした結果得られる電子透かし情報を、元の電子透かし情報とできるだけ近くするようにするための項である。式（１）の右辺における第４項は、音源分離後にデコードした結果得られる電子透かし情報を、元の電子透かし情報とできるだけ近くするようにするための項である。

　式（１）の右辺に含まれる第１項、第２項によって、電子透かし情報が埋め込まれた信号が元の信号と略同じ、すなわち、元の信号との変化を知覚不可能とすることができる。換言すれば、電子透かし情報を知覚不可能な情報とすることができる。また、ある音源信号に電子透かし情報が含まれ、当該音源信号を他の音源信号と混合する場合であっても、他の音源信号に電子透かし情報が漏れ出ない（悪影響を及ぼさない）ようにすることができる。また、分離後の全ての音源信号を分離前の音源信号と略同じ（電子透かし情報による変化が知覚不可能な）信号とすることができる。

［効果の一例］
　次に、本実施形態で得られる効果について、図７に示す実験結果を参照して説明する。
なお、実験は下記の条件で行った。
電子透かし情報：１６の文字列＋終わりを示すエンドトークン
文字種：２７種類（２６のアルファベット、１エンドトークン）
データセット：４つの音源信号（ボーカル、ドラム、バス、それ以外）のデータセット
音源分離：ＤＮＮベースの音源分離モデル
電子透かし情報を埋め込む音源信号：ドラムの音源信号

　実験の評価は、ＳＤＲ（Signal to Distortion Ratio）およびＣＥＲ(Character Error Rate)について行った。ＳＤＲは音声対全歪比であり、大きいほど結果が良好であることを示す。ＣＥＲは文字のエラー率（１－正解率）であり、小さいほど結果が良好であることを示す。また、図７中、「original」は電子透かし情報を埋め込んだドラムの音源信号を他の音源信号と混合せずにデコードした処理であることを示し、「separation」は電子透かし情報を埋め込んだドラムの音源信号を他の音源信号と混合し、混合した混合音信号を分離した後にデコードした処理であることを示す。

　実験は、以下の４パターンで行った。
パターン１（Random）:正解と思われる文字をランダムに当てはめるパターン（確率１／２７）
パターン２(Baseline(original))：音源分離処理を考慮しない損失関数（式（１）の右辺における１項目および３項目のみの損失関数）で学習した結果得られる学習モデルを、コンシーラおよびデコーダに適用したパターン。
パターン３(STSS(separation))：音源分離処理のみを考慮した損失関数（式（１）の右辺における２項目および４項目のみの損失関数）で学習した結果得られる学習モデルをコンシーラおよびデコーダに適用したパターン。
パターン４(STSS(separation＋original))：式（１）で示す損失関数で学習した結果得られる学習モデルをコンシーラおよびデコーダに適用したパターン。

　パターン１では、ＣＥＲの結果が「original」、「separation」ともに９６．３％となり、精度が悪かった。
　パターン２では、ＳＤＲおよびＣＥＲの「original」の結果が良好であった。しかしながら、音源分離処理を考慮していない損失関数を用いて得られる学習モデルであるためＳＤＲおよびＣＥＲの「separation」の結果がそれぞれ３０.８％、９６．３％と悪化した。
　パターン３では、音源分離処理を考慮した損失関数を用いて得られる学習モデルであるためＳＤＲおよびＣＥＲの「separation」の結果が良好であった。しかしながら、音源分離処理をせずにデコードする処理を考慮していない損失関数を用いて得られる学習モデルであるため、ＳＤＲおよびＣＥＲの「original」の結果がそれぞれ３４.６％、３８．５％と悪化した。
　パターン４では、ＳＤＲの「original」、「separation」の結果がそれぞれ、３５．２％、３７．９％と良好であった。一般にＳＤＲが３０％を超えると、電子透かし情報の埋め込みによる音源信号や混合音信号の変化が知覚不可能となる。本実験により、学習モデル１００を用いた処理によって係る基準を満たすことが確認された。さらに、ＣＥＲの「original」、「separation」の結果が共に０.０％と良好であった。以上から、パターン４、すなわち、本実施形態に係る学習モデル１００を用いたコンシーラ、デコーダによる処理結果の精度が最も高いことが確認された。

［ＵＩの一例］
　図８Ａおよび図８Ｂは、本実施形態に適用可能なＵＩ(User Interface)の一例を示す。図８Ａおよび図８Ｂに示すＵＩは、例えば、表示デバイスに表示される。図８Ａは主に配信側で利用されるＵＩであり、図８Ｂは共に再生側で利用されるＵＩである。

　例えば配信側の制作者Ａ（コンテンツクリエータ）で利用されるＵＩ６１は、例えば、埋め込む電子透かし情報を指定する表示６１Ａ、電子透かし情報を埋め込むオーディオファイルを指定する表示６１Ｂ、埋め込み強度を指定する表示６１Ｃ、指定されたオーディオファイルに電子透かし情報を埋め込む処理を開始するボタン６１Ｄを含む。表示６１Ｃは、例えば、埋め込み強度「強」および埋め込み強度「弱」のそれぞれに対応するラジオボタンを含む。埋め込み強度「強」とは、音源分離前後の音源信号ができる限り近くなるように（電子透かし情報による変化が極力、知覚不可能になるように）、電子透かし情報を埋め込むことを意味する。反対に埋め込み強度「弱」とは、音源分離前後の音源信号が多少異なること（電子透かし情報による変化が多少、知覚されること）を許容する意味である。例えば、埋め込み強度「強」、「弱」のそれぞれに対応する学習モデルは、式（１）におけるλの値を変化させることで得ることができる。ユーザーによる埋め込み強度の選択に応じて、コンシーラで用いられる学習モデルが切り替えられる。すなわち、ユーザーが埋め込み強度を選択可能とすることで、電子透かし情報を含ませる際に適用する学習モデルを選択可能とすることができる。制作者Ｂが利用されるＵＩも同様の表示要素を含む。

　制作者Ａ、Ｂのそれぞれにより電子透かし情報が埋め込まれた音源信号がミキシングツールによってミキシングされることで、混合音信号が生成される。ミキシングツールに係るＵＩ６２は、例えば、各音源信号の波形を含む。ミキシングツールのＵＩとしては公知のものを適用することができる。ミキシングツールによってエフェクト等が付与される。

　配信された混合音信号は、音源分離ソフトウェアによって音源分離される。図８Ｂに示すように、例えば、各分離信号の波形を含む表示７１が適宜な表示部に表示される。また、電子透かし情報抽出ソフトウェアの実行により、表示部にはＵＩ７２が表示される。ＵＩ７２は、例えば、分離音源の波形表示７２Ａおよび抽出された電子透かし情報（本実施形態では文字列）の表示７２Ｂを含む。勿論、学習モデル１００が適用されない場合には電子透かし情報は抽出されず表示７２Ｂは空欄やエラー表示となる。

　電子透かし情報に対応する文字列が抽出された場合には、分離信号の二次的な利用が許可される。このような利用例に限らず、電子透かし情報に対応する文字列の抽出は、分離信号の不正な流通を防止できる。すなわち、不正に音源信号を配信するサイトからダウンロードした音源信号を電子透かし情報抽出ソフトウェアにかけて電子透かし情報が抽出された場合には、当該音源信号が許諾を受けた配信でないことの証拠となる。この他にも電子透かし情報を用いた様々な応用が可能である。

＜変形例＞
　以上、本開示の一実施形態について説明したが、本開示は、上述した実施形態に限定されることはなく、本開示の趣旨を逸脱しない範囲で種々の変形が可能である。

　一実施形態で説明した処理では、一度、混合若しくは分離された音源信号が、さらに別の音源信号と混合された場合に、電子透かし情報が保持および抽出されることを保証していない。そこで、下記の式（２）に示すように損失関数を変更することにより、２度、混合・分離された場合でも電子透かし情報を保持できるようにすることができる。
式（２）

式（２）が式（１）と異なる点は、式（２）の右辺における第５項が追加されている点である。
但し、

であり、

はデコーダ、

は音源iの音源分離機、

は、音源分離結果により得られる音源信号に対する他の音源信号をそれぞれ示す。
また、λは重み係数であり、実験的に決定される値である。
なお、式（２）における右辺の項を追加することにより、２回ではなく３回以上の音源分離や混合に対応する損失関数とすることができる。

　一実施形態で説明した一部の処理が配信装置や再生装置とは別の装置、例えば、サーバによって行われてもよい。混合音信号に含まれる音源信号の数や種類は任意のものを適用可能である。

　また、本開示は、装置、方法、プログラム、システム等、任意の形態により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、以下の構成も採ることができる。
（１）
　複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出するデコーダを有し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理装置。
（２）
　前記付加情報は、前記複数の音源信号が混合された混合音信号に対して加算された情報である
　（１）に記載の情報処理装置。
（３）
　前記デコーダは、前記混合音信号に対して音源分離処理がなされた分離信号から前記付加情報を抽出する
　（１）に記載の情報処理装置。
（４）
　前記混合音信号を構成する少なくとも一の音源信号に、前記付加情報が含まれる
　（１）に記載の情報処理装置。
（５）
　前記混合音信号を構成する各音源信号に、前記付加情報が含まれる
　（４）に記載の情報処理装置。
（６）
　前記音源分離処理を行う音源分離部を有する
　（３）に記載の情報処理装置。
（７）
　前記学習モデルは、前記音源信号に付加情報を含ませる前後における音源信号間の誤差関数、前記音源信号に付加情報を含ませた信号と音源分離により得られる当該音源信号に対応する信号との間の誤差関数、前記音源信号に含ませる前後における付加情報間の誤差関数、および、前記音源信号に含ませる前の付加情報と音源分離により得られる当該音源信号に含まれる付加情報との間の誤差関数に基づく損失関数を最小化する学習を行うことにより得られるモデルである
　（１）から（７）までの何れかに記載の情報処理装置。
（８）
　前記付加情報は、電子透かし情報である
　（１）から（７）までの何れかに記載の情報処理装置。
（９）
　デコーダが、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法。
（１０）
　デコーダが、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法をコンピュータに実行させるプログラム。
（１１）
　複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませるコンシーラを有し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理装置。
（１２）
　前記コンシーラは、前記複数の音源信号が混合された混合音信号に対して前記付加情報を含ませる
　（１１）に記載の情報処理装置。
（１３）
　前記コンシーラは、前記複数の音源信号の少なくとも一の音源信号に対して前記付加情報を含ませる
　（１１）に記載の情報処理装置。
（１４）
　前記コンシーラは、前記複数の音源信号の全ての音源信号に対して前記付加情報を含ませる
　（１３）に記載の情報処理装置。
（１５）
　前記付加情報を含ませる際に適用する前記学習モデルが選択可能とされる
　（１１）から（１４）までの何れかに記載の情報処理装置。
（１６）
　前記学習モデルは、前記音源信号に付加情報を含ませる前後における音源信号間の誤差関数、前記音源信号に付加情報を含ませた信号と音源分離により得られる当該音源信号に対応する信号との間の誤差関数、前記音源信号に含ませる前後における付加情報間の誤差関数、および、前記音源信号に含ませる前の付加情報と音源分離により得られる当該音源信号に含まれる付加情報との間の誤差関数に基づく損失関数を最小化する学習を行うことにより得られるモデルである
　（１１）から（１４）までの何れかに記載の情報処理装置。
（１７）
　前記付加情報は、電子透かし情報である
　（１１）から（１６）までの何れかに記載の情報処理装置。
（１８）
　コンシーラが、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませる処理を行い、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法。
（１９）
　コンシーラが、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませる処理を行い、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法をコンピュータに実行させるプログラム。

２・・・配信装置
３・・・再生装置
４１・・・コンシーラ
５１、５１Ａ、５１Ｂ、５１Ｃ・・・デコーダ
１００・・・学習モデル
３０５Ｃ・・・音源分離部
３０５Ｄ・・・デコーダ
ＷＩ・・・電子透かし情報

Claims

　複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出するデコーダを有し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理装置。
　前記付加情報は、前記複数の音源信号が混合された混合音信号に対して加算された情報である
　請求項１に記載の情報処理装置。
　前記デコーダは、前記混合音信号に対して音源分離処理がなされた分離信号から前記付加情報を抽出する
　請求項１に記載の情報処理装置。
　前記混合音信号を構成する少なくとも一の音源信号に、前記付加情報が含まれる
　請求項１に記載の情報処理装置。
　前記混合音信号を構成する各音源信号に、前記付加情報が含まれる
　請求項４に記載の情報処理装置。
　前記音源分離処理を行う音源分離部を有する
　請求項３に記載の情報処理装置。
　前記学習モデルは、前記音源信号に付加情報を含ませる前後における音源信号間の誤差関数、前記音源信号に付加情報を含ませた信号と音源分離により得られる当該音源信号に対応する信号との間の誤差関数、前記音源信号に含ませる前後における付加情報間の誤差関数、および、前記音源信号に含ませる前の付加情報と音源分離により得られる当該音源信号に含まれる付加情報との間の誤差関数に基づく損失関数を最小化する学習を行うことにより得られるモデルである
　請求項１に記載の情報処理装置。
　前記付加情報は、電子透かし情報である
　請求項１に記載の情報処理装置。
　デコーダが、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法。
　デコーダが、複数の音源信号が混合された混合音信号に含まれる付加情報を、所定の学習モデルを適用することで抽出し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法をコンピュータに実行させるプログラム。
　複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませるコンシーラを有し、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理装置。
　前記コンシーラは、前記複数の音源信号が混合された混合音信号に対して前記付加情報を含ませる
　請求項１１に記載の情報処理装置。
　前記コンシーラは、前記複数の音源信号の少なくとも一の音源信号に対して前記付加情報を含ませる
　請求項１１に記載の情報処理装置。
　前記コンシーラは、前記複数の音源信号の全ての音源信号に対して前記付加情報を含ませる
　請求項１３に記載の情報処理装置。
　前記付加情報を含ませる際に適用する前記学習モデルが選択可能とされる
　請求項１１に記載の情報処理装置。
　前記学習モデルは、前記音源信号に付加情報を含ませる前後における音源信号間の誤差関数、前記音源信号に付加情報を含ませた信号と音源分離により得られる当該音源信号に対応する信号との間の誤差関数、前記音源信号に含ませる前後における付加情報間の誤差関数、および、前記音源信号に含ませる前の付加情報と音源分離により得られる当該音源信号に含まれる付加情報との間の誤差関数に基づく損失関数を最小化する学習を行うことにより得られるモデルである
　請求項１１に記載の情報処理装置。
　前記付加情報は、電子透かし情報である
　請求項１１に記載の情報処理装置。
　コンシーラが、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませる処理を行い、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法。
　コンシーラが、複数の音源信号、および、当該複数の音源信号が混合された混合音信号の少なくとも一方に対して、所定の学習モデルを適用することで付加情報を含ませる処理を行い、
　前記付加情報の付加による前記音源信号および前記混合音信号の変化が知覚不可能とされる
　情報処理方法をコンピュータに実行させるプログラム。