WO2022269796A1

WO2022269796A1 - 装置、合奏システム、音再生方法、及びプログラム

Info

Publication number: WO2022269796A1
Application number: PCT/JP2021/023765
Authority: WO
Inventors: 陽前澤; 賀文水野
Original assignee: ヤマハ株式会社
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2022-12-29
Also published as: JPWO2022269796A1; CN117501360A

Abstract

第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられる装置であって、前記第２会場に設けられる装置が収音した演奏音を、演奏音推定モデルに入力し、当該演奏音における未来の演奏音を推定する推定部、を有する装置。

Description

装置、合奏システム、音再生方法、及びプログラム

　本発明は、装置、合奏システム、音再生方法、及びプログラムに関する。

　歌唱や演奏の様子を撮影した映像をライブ配信するシステムがある（例えば特許文献１）。このシステムでは、歌唱者や演奏者等の演者は、それぞれ別の場所において演奏する。演奏場所にはそれぞれカメラが設けられている。センターは、各カメラから得られた映像を合成し、配信映像として受信端末に配信する。

特開２００８－１３１３７９号公報

　しかしながら、演者同士が遠隔にいる場合には、互いの音を、通信回線を介して受信して聴かなければならない。通信回線を介すると伝送に係る遅延が生じる場合があり、相手の音が遅れて聴こえることがある。このため、演者同士が遠隔にいる場合には、自然に合奏することが困難な場合があった。

　本発明は、このような事情に鑑みてなされたもので、その目的は、通信回線を介して受信した音を遅延なく再生することである。

　本発明の一態様は、第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられる装置であって、前記第２会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定する推定部、を有し、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、装置である。

　本発明の一態様は、第１会場と第２会場での遠隔合奏を実現させる合奏システムであって、前記第１会場に設けられる第１端末装置と、前記第２会場に設けられる第２端末装置とを備え、前記第１端末装置は、前記第１会場における第１演奏音を取得する第１取得部と、前記第１演奏音を、前記第２端末装置に送信する第１送信部と、前記第２会場における第２演奏音を前記第２端末装置から受信する第１受信部と、前記第１受信部により受信された前記第２演奏音を、第２演奏音推定モデルに入力することにより、前記第２演奏音における未来の第２演奏推定音を推定する第１推定部と、前記第２演奏推定音を出力する第１音出力部と、を有し、前記第２端末装置は、前記第２演奏音を取得する第２取得部と、前記第２演奏音を前記第１端末装置に送信する第２送信部と、前記第１演奏音を前記第１端末装置から受信する第２受信部と、前記第２受信部によって受信された第１演奏音を、第１演奏音推定モデルに入力することにより、前記第１演奏音における未来の第１演奏推定音を推定する第２推定部と、前記第１演奏推定音を出力する第２音出力部と、を有し、前記第１演奏音推定モデルは、前記第１演奏音に対応する第１音信号を学習することによって、入力された前記第１演奏音から、前記第１演奏推定音を推定するように学習された学習済モデルであり、前記第２演奏音推定モデルは、前記第２演奏音に対応する第２音信号を学習することによって、入力された前記第２演奏音から、前記第２演奏推定音を推定するように学習された学習済モデルである合奏システムである。

　また、本発明の一態様は、第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられるコンピュータ装置が行う音再生方法であって、前記第２会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定し、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、音再生方法である。

　また、本発明の一態様は、第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられるコンピュータ装置に、前記第２会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力させ、当該演奏音における未来の演奏推定音を推定させるプログラムであって、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、プログラムである。

　通信回線を介して受信した音を遅延なく再生することができる。

実施形態に係る合奏システム１の概略を示す概略図である。実施形態に係る合奏システム１の構成の例を示すブロック図である。実施形態に係る学習済モデル１２０の例を示す図である。実施形態に係る学習済モデル１２０の例を示す図である。実施形態に係る学習済モデル１２０の例を示す図である。実施形態に係る合奏システム１が行う処理の流れを説明するシーケンス図である。実施形態に係る演奏者端末１０が行う処理の流れを説明するフローチャートである。

　以下、実施形態に係る合奏システム１について図面を参照して説明する。以下では、合奏システム１を用いて遠隔にいる演者同士がセッション（遠隔合奏）する場合を例に説明する。これに限定されることはなく、音以外の任意のコンテンツを合成する場合に本実施形態に係る合奏システム１を適用することが可能である。

　図１は、実施形態に係る合奏システム１の概略を示す概略図である。合奏システム１は、演者による演奏音を、遠隔にいる他の演者に対してリアルタイムに送信するシステムである。

　図１に示すように、合奏システム１では、会場Ｅ１における演奏に係る音（第１演奏音）がマイクＭＣ１により収音され、通信ネットワークＮＷを介して、セッション相手となる会場Ｅ２に送信される。

　会場Ｅ２では、通信ネットワークＮＷを介して受信された第１演奏音がスピーカＳＰ２から出力される。また、会場Ｅ２では、会場Ｅ２における演奏音（第２演奏音）がマイクＭＣ２により収音され、通信ネットワークＮＷを介して、会場Ｅ１に送信される。そして、会場Ｅ１では、通信ネットワークＮＷを介して受信された第２演奏音がスピーカＳＰ１から出力される。また、合奏システム１では、第１演奏音と、第２演奏音とが、配信サーバ２０に送信されてミキシングされ、配信サーバ２０を介して視聴者端末３０に配信される。

　合奏システム１では、通信ネットワークＮＷを介して受信したセッション相手の演奏音から、その未来の演奏音が推定される。ここで未来の演奏音とは、受信したセッション相手の演奏音における演奏位置Ｔよりも未来の演奏位置（Ｔ＋Δｔ）において演奏される音である。

　具体的には、会場Ｅ１において第２演奏音が受信され、受信された第２演奏音に基づいて、その第２演奏音における未来の演奏音が推定される。また、会場Ｅ２において第１演奏音が受信され、受信された第１演奏音に基づいて、その第１演奏音における未来の演奏音が推定される。

　推定には、学習済モデルが利用される。学習済モデルは、演奏音に係る音信号を学習したモデルである。学習済モデルは、入力された演奏音から、その演奏音の未来の演奏音を推定するように学習される。

　具体的に、学習済モデルは、演奏音の音信号を学習データとして、学習モデルの機械学習（例えばディープラーニング）が実行されることにより作成される。学習モデルは、例えば、ニューラルネットワークまたは多分木等のモデルである。

　学習データの音信号は、例えば、楽器の演奏音をマイクで収音した音響信号である。音信号には、演奏内容を示す指示データと、当該指示データの発生時点を示す時間データとが配列された時系列データが含まれる。指示データは、音高（ノートナンバ）と強度（ベロシティ）とを指定して発音および消音等の各種のイベントを指示する。時間データは、例えば相前後する指示データの間隔（デルタタイム）を指定する。

　つまり、合奏システム１では、通信ネットワークＮＷを介して受信した演奏音が、学習済モデルに入力される。学習済モデルは、入力された演奏音における未来の演奏音を推定して出力する。学習済モデルによって推定された未来の演奏音が、スピーカから出力される。

　具体的には、会場Ｅ１において第２演奏音が受信され、受信された第２演奏音が学習済モデル（第２演奏音推定モデル）に入力される。第２演奏音推定モデルは、第２演奏音に関する音信号を学習したモデルである。第２演奏音推定モデルは、入力された第２演奏音における未来の演奏音を推定する。第２演奏音推定モデルによって推定された演奏音は、スピーカＳＰ１から出力される。

　会場Ｅ２において第１演奏音が受信され、受信された第１演奏音が学習済モデル（第１演奏音推定モデル）に入力される。第１演奏音推定モデルは、第１演奏音に関する音信号を学習したモデルである。第１演奏音推定モデルは、入力された第１演奏音における未来の演奏音を推定する。第１演奏音推定モデルによって推定された演奏音は、スピーカＳＰ２から出力される。

　これにより、本実施形態の合奏システム１では、通信ネットワークＮＷを介して受信した演奏音における未来の演奏音を推定して出力することができる。このため、伝送遅延により、実際の演奏位置（Ｔ＋Δｔ）よりも遅れた演奏位置Ｔの演奏音が受信された場合であっても、実際の演奏位置（Ｔ＋Δｔ）における演奏音を推定して出力することが可能である。したがって、通信回線を介して受信した音を、遅延なく再生することが可能である。

　ここで、学習に用いられる学習データの音信号は、任意に決定されてよい。学習データの音信号は、少なくとも、推定対象とする演奏音に対応する音信号であればよいが、推定対象とする演奏音に似た演奏態様にて演奏された音であることが好ましい。演奏態様が似た演奏音を学習させることにより、推定の精度を向上させることが可能となるためである。

　例えば、学習データの音信号は、本番の遠隔合奏において、実際に演奏する演奏者による演奏音であることが好ましい。また、学習データの音信号は、本番の遠隔合奏において、実際に演奏される楽器を用いて演奏音であることが好ましい。学習データの音信号は、例えば、リハーサルにて演奏された演奏音（リハーサル音源）である。リハーサル音源を用いることによって、本番の遠隔合奏における演奏音を精度よく推定することができる。

　図２は、実施形態に係る合奏システム１の構成の例を示すブロック図である。ここでは、三つの演奏者端末１０－１～１０－３が遠隔演奏を行う場合を例示して説明する。しかしながらこれに限定されることはない。合奏システム１は、複数の演奏者端末１０（演奏者端末１０－１～１０－Ｎ、Ｎは１とは異なる自然数）が遠隔演奏を行う場合に適用可能である。

　図１に示すように、合奏システム１は、例えば、三つの演奏者端末１０－１～１０－３と、配信サーバ２０と、視聴者端末３０を備える。なお、合奏システム１において、視聴者端末３０が複数設けられていてもよい。

　演奏者端末１０－１は、図１における会場Ｅ１に設けられるスマートフォンや携帯端末、タブレット、或いはＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）などのコンピュータ装置である。演奏者端末１０－１が備えるスピーカ部１５は、図１のスピーカＳＰ１に相当する。演奏者端末１０－１が備えるマイク部１６は、図１のマイクＭＣ１に相当する。

　演奏者端末１０－２は、図１における会場Ｅ２に設けられるスマートフォンや携帯端末、タブレット、或いはＰＣなどのコンピュータ装置である。演奏者端末１０－２が備えるスピーカ部１５は、図１のスピーカＳＰ２に相当する。演奏者端末１０－２が備えるマイク部１６は、図１のマイクＭＣ２に相当する。図１では省略されているが、演奏者端末１０－３についても同様である。以下の説明では、演奏者端末１０－１～１０－３を区別しない場合には、単に、「演奏者端末１０」と称する。

　合奏システム１において、演奏者端末１０と、配信サーバ２０と、視聴者端末３０とは通信ネットワークＮＷを介して通信可能に接続される。通信ネットワークＮＷは、例えば、広域回線網、すなわちＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やインターネット、或いはこれらの組合せである。

　演奏者端末１０は、例えば、通信部１１と、記憶部１２と、制御部１３と、表示部１４と、スピーカ部１５と、マイク部１６を備える。

　通信部１１は、配信サーバ２０と通信を行う。記憶部１２は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　ｒｅａｄ／ｗｒｉｔｅ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部１２は、演奏者端末１０の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。記憶部１２は、例えば、学習済モデル１２０を記憶する。学習済モデル１２０は、学習済モデルを構築するために必要な情報である。学習済モデルを構築するために必要な情報とは、学習済モデルの構成や、使用するパラメータの設定値等である。例えば、学習済モデルが、入力層、中間層、出力層の各層を備えるＣＮＮ（Convolutional Neural Network）の構成である場合、学習済モデルの構成は、その各層のユニット数、中間層の層数、活性化関数などを示す情報である。使用するパラメータは、各階層のノードを結合する結合係数や重みを示す情報である。

　学習済モデル１２０について、図３～図５を用いて説明する。図３は、演奏者端末１０－１が記憶する学習済モデル１２０－１の例を示す図である。図４は、演奏者端末１０－２が記憶する学習済モデル１２０－２の例を示す図である。図５は、演奏者端末１０－３が記憶する学習済モデル１２０－３の例を示す図である。以下の説明では、学習済モデル１２０－１～１２０－３を区別しない場合には、単に、「学習済モデル１２０」と称する。

　図３～図５に示すように、学習済モデル１２０は、例えば、対象会場Ｎｏ、演奏種別、及び学習済モデルなどの項目を備える。対象会場Ｎｏは、演奏される会場を一意に特定する番号などの識別情報である。演奏種別は、対象会場Ｎｏにて特定される会場にて行われる演奏の種別、例えば、演奏される楽器を示す情報である。学習済モデルは、対象会場Ｎｏにて特定される会場にて行われる演奏の演奏音に対応する学習済モデルである。

　図３の例では、学習済モデル１２０－１に、第２学習済モデルと、第３学習済モデルとが記憶されていることが示されている。第２学習済モデルは、対象会場Ｎｏ（２）で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第３学習済モデルは、対象会場Ｎｏ（３）で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場Ｎｏ（１）で特定される会場が、演奏者端末１０－１が設けられる会場に相当する。対象会場Ｎｏ（２）、或いは対象会場Ｎｏ（３）で特定される会場は、セッション相手がいる会場に相当する。

　図４の例では、学習済モデル１２０－２に、第１学習済モデルと、第３学習済モデルとが記憶されていることが示されている。第１学習済モデルは、対象会場Ｎｏ（１）で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第３学習済モデルは、対象会場Ｎｏ（３）で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場Ｎｏ（２）で特定される会場が、演奏者端末１０－２が設けられる会場に相当する。対象会場Ｎｏ（１）、或いは対象会場Ｎｏ（３）で特定される会場は、セッション相手がいる会場に相当する。

　図５の例では、学習済モデル１２０－３に、第１学習済モデルと、第２学習済モデルとが記憶されていることが示されている。第１学習済モデルは、対象会場Ｎｏ（１）で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第２学習済モデルは、対象会場Ｎｏ（２）で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場Ｎｏ（３）で特定される会場が、演奏者端末１０－３が設けられる会場に相当する。対象会場Ｎｏ（１）、或いは対象会場Ｎｏ（２）で特定される会場は、セッション相手がいる会場に相当する。

　図３～図５に示すように、学習済モデル１２０には、セッション相手となる演奏音を推定する学習済モデルが記憶される。

　図１の説明に戻り、制御部１３は、演奏者端末１０がハードウェアとして備えるＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）にプログラムを実行させることによって実現される。制御部１３は、演奏者端末１０を統括的に制御する。制御部１３は、通信部１１、記憶部１２、表示部１４、スピーカ部１５、及びマイク部１６のそれぞれを制御する。

　制御部１３は、例えば、取得部１３０と、推定部１３１と、出力部１３２と、配信部１３３とを備える。取得部１３０は、セッション相手の演奏音を取得する。取得部１３０は、取得した演奏音を、推定部１３１に出力する。

　推定部１３１は、取得部１３０から取得した演奏音を、学習済モデルに入力させることにより、未来の演奏音を推定する。推定部１３１は、推定した演奏音を出力部１３２に出力する。

　出力部１３２は、推定部１３１から取得した演奏音を、スピーカ部１５に出力させる。これにより、セッション相手の未来の演奏音が、スピーカ部１５から放音される。

　なお、セッション相手が複数いる場合には、出力部１３２は、それぞれセッション相手の演奏音における未来の演奏音をミキシングした音を出力するようにしてもよい。

　配信部１３３は、マイク部１６により収音された演奏音を、通信部１１を介して、セッション相手の演奏者端末１０、及び配信サーバ２０に送信する。

　表示部１４は、液晶ディスプレイなどの表示装置を含み、制御部１３の制御に応じて、セッション相手の演奏に係る映像等の画像を表示する。スピーカ部１５は、制御部１３の制御に応じて、セッション相手の演奏音を出力する。

　配信サーバ２０は、演奏に係る映像や音を配信するコンピュータ装置である。配信サーバ２０は、例えば、サーバ装置、クラウド、ＰＣなどである。

　配信サーバ２０は、例えば、通信部２１と、記憶部２２と、制御部２３とを備える。通信部２１は、演奏者端末１０のそれぞれと、視聴者端末３０と通信を行う。

　記憶部２２は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＡＭ、ＲＯＭなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部２２は、配信サーバ２０の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。

　記憶部２２は、例えば、配信情報２２０を記憶する。配信情報２２０は、配信される音に関する情報である。配信情報２２０は、例えば、配信先の視聴者端末３０のリストや配信する内容を示す情報である。

　制御部２３は、配信サーバ２０がハードウェアとして備えるＣＰＵにプログラムを実行させることによって実現される。制御部２３は、例えば、取得部２３０と、合成部２３１と、配信部２３２とを備える。

　取得部２３０は、演奏者端末１０それぞれから演奏音を取得する。取得部２３０は、取得したそれぞれの演奏音を示す情報を合成部２３１に出力する。

　合成部２３１は、取得部２３０から取得した、それぞれの演奏音をミキシングした合成音（合奏音）を生成する。合成部２３１は、例えば、各音源を圧縮し、圧縮した音源を加算することにより、合成音を生成する。合成部２３１は、生成した合成音を、配信部２３２に出力する。

　配信部２３２は、合成部２３１から取得した合成音を、視聴者端末３０に配信する。

　視聴者端末３０は、視聴者のコンピュータ装置である。視聴者端末３０は、例えば、スマートフォン、ＰＣ、タブレット端末などである。視聴者端末３０は、例えば、通信部３１と、記憶部３２と、制御部３３と、表示部３４と、スピーカ部３５とを備える。

　通信部３１は、配信サーバ２０と通信を行う。記憶部３２は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＡＭ、ＲＯＭなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部３２は、視聴者端末３０の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。

　制御部３３は、視聴者端末３０がハードウェアとして備えるＣＰＵにプログラムを実行させることによって実現される。制御部３３は、視聴者端末３０を統括的に制御する。制御部３３は、通信部３１、記憶部３２、表示部３４、スピーカ部３５のそれぞれを制御する。

　表示部３４は、液晶ディスプレイなどの表示装置を含み、制御部３３の制御に応じて、遠隔合奏に係るライブ演奏の映像等の画像を表示する。

　スピーカ部３５は、制御部３３の制御に応じて、遠隔合奏に係るライブ演奏の合奏音を出力する。

　図６は、実施形態に係る合奏システム１が行う処理の流れを説明するシーケンス図である。以下のシーケンス図では、二つの演奏者端末１０－１、１０－２が遠隔演奏を行う場合を例示して説明する。

　演奏者端末１０－１は、自会場における演奏音を収音し、収音した演奏音を、演奏者端末１０－２、及び配信サーバ２０に送信する（ステップＳ１０）。ここでの自会場は、演奏者端末１０－１が設けられている会場である。

　演奏者端末１０－２は、他会場の演奏音を受信し、受信した他会場の演奏音の音処理を行う（ステップＳ１１）。ここでの他会場は、演奏者端末１０－１が設けられている会場である。音処理の流れについては後で詳しく説明する。一方、演奏者端末１０－２は、自会場における演奏音を収音し、収音した演奏音を、演奏者端末１０－１、及び配信サーバ２０に送信する（ステップＳ１２）。ここでの自会場は、演奏者端末１０－２が設けられている会場である。演奏者端末１０－２は、ステップＳ１１、Ｓ１２に示す処理を、セッションが終了するまで繰り返し実行する。

　演奏者端末１０－１は、他会場の演奏音を受信し、受信した他会場の演奏音の音処理を行う（ステップＳ１３）。ここでの他会場は、演奏者端末１０－２が設けられている会場である。演奏者端末１０－１は、ステップＳ１０、Ｓ１３に示す処理を、セッションが終了するまで繰り返し実行する。

　配信サーバ２０は、第１会場の演奏音を受信する（ステップＳ１４）。ここでの第１会場は、演奏者端末１０－１が設けられている会場である。また、配信サーバ２０は、第２会場の演奏音を受信する（ステップＳ１５）。ここでの第２会場は、演奏者端末１０－２が設けられている会場である。配信サーバ２０は、第１会場の演奏音と、第２会場の演奏音とをミキシングする（ステップＳ１６）。配信サーバ２０は、ミキシングした合奏音を視聴者端末３０に送信する（ステップＳ１７）。視聴者端末３０は、配信サーバ２０から配信された合奏音を受信し、受信した合奏音をスピーカ部３５に出力して再生する（ステップＳ１８）。

　図７は、実施形態に係る演奏者端末１０が行う音処理の流れを説明するフローチャートである。演奏者端末１０は、別会場の演奏音を受信する（ステップＳ２０）。演奏者端末１０は、受信した演奏音の演奏位置Ｔから時間Δｔ進めた演奏位置（Ｔ＋Δｔ）の演奏音を推定する（ステップＳ２１）。演奏者端末１０は、推定した演奏音をスピーカ部１５から出力する（ステップＳ２２）。演奏者端末１０は、自会場の演奏音をマイク部１６により収音する（ステップＳ２３）。演奏者端末１０は、自会場にて収音された演奏音を、セッション相手の演奏者端末１０、及び配信サーバ２０に送信する（ステップＳ２４）。

　以上説明したように、実施形態の演奏者端末１０は、会場Ｅ１と会場Ｅ２で遠隔合奏を行う場合において会場Ｅ１に設けられる。演奏者端末１０は、推定部１３１を備える。推定部１３１は、演奏音における未来の演奏推定音を推定する。演奏音は、会場Ｅ２に設けられる装置（例えば、演奏者端末１０－２）が収音した音である。推定部１３１は、演奏音を演奏音推定モデルに入力して演奏推定音を推定する。演奏音推定モデルは、入力された演奏音から、演奏推定音を推定する学習済モデルである。演奏音推定モデルは、演奏音に対応する音信号を学習した学習済モデルである。

　ここで、演奏者端末１０は、「装置」の一例である。上述した実施形態では、会場Ｅに設けられた演奏者端末１０が他会場の演奏音を推定して出力する場合を例示して説明した。しかしながらこれに限定されることはない。少なくとも会場Ｅに設けられている任意の装置によって、他会場の演奏音が推定されて出力されるように構成されてよい。会場Ｅに設けられている装置は、例えば、合奏音を配信する配信用のサーバ装置、或いは各会場の音をミキシングするミキサーなどのコンピュータ装置である。

　また、実施形態の合奏システム１は、演奏者端末１０－１と１０－２とを備える。演奏者端末１０－１は会場Ｅ１に設けられる。演奏者端末１０－２は、会場Ｅ２に設けられる。演奏者端末１０は、取得部１３０と、通信部１１と、推定部１３１と、出力部１３２とを備える。演奏者端末１０－１の取得部１３０は、会場Ｅ１における第１演奏音を取得する。演奏者端末１０－１の通信部１１は、第１演奏音を、演奏者端末１０－２に送信する。演奏者端末１０－１の通信部１１は、会場Ｅ２における第２演奏音を演奏者端末１０－２から受信する。演奏者端末１０－１の推定部１３１は、通信部１１が受信した第２演奏音における未来の演奏音（第２演奏推定音）を推定する。推定部１３１は、学習済モデル（第２演奏音推定モデル）を用いて推定を行う。演奏者端末１０－１の出力部１３２は、推定された音を出力する。

　演奏者端末１０－２の取得部１３０は、会場Ｅ２における第２演奏音を取得する。演奏者端末１０－２の通信部１１は、第２演奏音を、演奏者端末１０－１に送信する。演奏者端末１０－２の通信部１１は、第１演奏音を演奏者端末１０－１から受信する。演奏者端末１０－２の推定部１３１は、通信部１１が受信した第１演奏音における未来の演奏音（第１演奏推定音）を推定する。推定部１３１は、学習済モデル（第１演奏音推定モデル）を用いて推定を行う。演奏者端末１０－２の出力部１３２は、推定された音を出力する。

　学習済モデル（第１演奏音推定モデル）は、演奏音（第１演奏音）に係る音信号を学習したモデルである。学習済モデル（第２演奏音推定モデル）は、演奏音（第２演奏音）に係る音信号を学習したモデルである。これにより、実施形態の合奏システム１では、通信ネットワークＮＷを介して受信した演奏音における未来の演奏音を推定して出力することができる。このため、伝送遅延により、実際の演奏位置（Ｔ＋Δｔ）よりも遅れた演奏位置Ｔの演奏音が受信された場合であっても、実際の演奏位置（Ｔ＋Δｔ）における演奏音を推定して出力することが可能である。したがって、通信回線を介して受信した音を、遅延なく再生することが可能である。

　また、実施形態の演奏者端末１０では、学習済モデルは、リハーサル音源に係る音信号を学習したモデルであってもよい。これにより、演奏音を精度よく推定することができる。

　また、図１における処理部（制御部１３）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより施工管理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

　また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、サーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものを含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。また、上記のプログラムを所定のサーバに記憶させておき、他の装置からの要求に応じて、当該プログラムを、通信回線を介して配信（ダウンロード等）させるようにしてもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１・・・合奏システム、１０・・・演奏者端末、１１・・・通信部、１２・・・記憶部、１３・・・制御部、１４・・・表示部、１５・・・スピーカ部、１６・・・マイク部、２０・・・配信サーバ、３０・・・視聴者端末、１３０・・・取得部、１３１・・・推定部、１３２・・・出力部、１３３・・・配信部

Claims

　第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられる装置であって、
　前記第２会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定する推定部、
　を有し、
　前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
　装置。
　前記演奏音推定モデルは、前記演奏音に対応するリハーサル音源を学習する、
　請求項１に記載の装置。
　第１会場と第２会場での遠隔合奏を実現させる合奏システムであって、前記第１会場に設けられる第１端末装置と、前記第２会場に設けられる第２端末装置とを備え、
　前記第１端末装置は、
　前記第１会場における第１演奏音を取得する第１取得部と、
　前記第１演奏音を、前記第２端末装置に送信する第１送信部と、
　前記第２会場における第２演奏音を前記第２端末装置から受信する第１受信部と、
　前記第１受信部により受信された前記第２演奏音を、第２演奏音推定モデルに入力することにより、前記第２演奏音における未来の第２演奏推定音を推定する第１推定部と、
　前記第２演奏推定音を出力する第１音出力部と
　を有し、
　前記第２端末装置は、
　前記第２演奏音を取得する第２取得部と、
　前記第２演奏音を前記第１端末装置に送信する第２送信部と、
　前記第１演奏音を前記第１端末装置から受信する第２受信部と、
　前記第２受信部によって受信された第１演奏音を、第１演奏音推定モデルに入力することにより、前記第１演奏音における未来の第１演奏推定音を推定する第２推定部と、
　前記第１演奏推定音を出力する第２音出力部と
　を有し、
　前記第１演奏音推定モデルは、前記第１演奏音に対応する第１音信号を学習することによって、入力された前記第１演奏音から、前記第１演奏推定音を推定するように学習された学習済モデルであり、
　前記第２演奏音推定モデルは、前記第２演奏音に対応する第２音信号を学習することによって、入力された前記第２演奏音から、前記第２演奏推定音を推定するように学習された学習済モデルである、
　合奏システム。
　第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられるコンピュータ装置が行う音再生方法であって、
　前記第２会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定し、
　前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
　音再生方法。
　第１会場と第２会場で遠隔合奏を行う場合において前記第１会場に設けられるコンピュータ装置に、
　前記第２会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力させ、当該演奏音における未来の演奏推定音を推定させる、
　プログラムであって、
　前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
　プログラム。