WO2020145209A1

WO2020145209A1 - 映像制御システム、及び映像制御方法

Info

Publication number: WO2020145209A1
Application number: PCT/JP2019/051566
Authority: WO
Inventors: 陽前澤; 田邑　元一; 藤島　琢哉; 孝司桐山; 乃梨子越田; 寿行桑原; 晃代上平; 涼彌薄羽
Original assignee: ヤマハ株式会社; 国立大学法人東京芸術大学
Priority date: 2019-01-07
Filing date: 2019-12-27
Publication date: 2020-07-16
Also published as: US20210335331A1; JP2020109918A; CN113272890A; JP7226709B2

Abstract

映像制御システムは、楽曲の演奏を表す音響信号の入力に対する学習済みモデルからの出力に基づいて、前記音響信号の前記楽曲における演奏に関する演奏情報を推定する推定部と、ユーザにより入力される操作であって、映像の再生に関する操作を表す操作情報を取得する取得部と、前記推定された演奏情報に基づいて前記映像の再生を制御する映像制御部と、を備える。前記映像制御部は、前記取得部により前記操作情報が取得された場合、前記操作情報に基づいて前記映像の再生を制御する。

Description

映像制御システム、及び映像制御方法

　本発明は、映像制御システム、及び映像制御方法に関する。
　この出願は、２０１９年１月７日に出願された日本国特願２０１９－０００６８６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　従来、イベント会場などにおいては楽曲に合わせて映像を流すことで効果的な映像演出を実現している。例えば、特許文献１には、映像の再生順などの編集をユーザが直観的に行うことができる技術が開示されている。

日本国特開２０１０－１４１４６１号公報

　しかしながら、コンサートなどのイベントの場合、生演奏に合わせて映像を制御しなければならない。生演奏においては演奏者が楽譜通りに演奏することは稀であり、テンポが遅くなったり早くなったりすることがある。このような生演奏に合わせて映像を制御するには特別な訓練や技術が必要である。つまり、技術を有していないユーザにとって生演奏に合わせて映像を制御することは困難であった。

　本発明は、このような状況に鑑みてなされた。この発明の目的の一例は、特別な技術を有していないユーザであっても楽曲に合わせて映像を制御することができる映像制御システムを提供することである。

　本発明の一態様は、楽曲の演奏を表す音響信号の入力に対する学習済みモデルからの出力に基づいて、前記音響信号の前記楽曲における演奏に関する演奏情報を推定する推定部と、ユーザにより入力される操作であって、映像の再生に関する操作を表す操作情報を取得する取得部と、前記推定された演奏情報に基づいて前記映像の再生を制御する映像制御部と、を備え、前記映像制御部は、前記取得部により前記操作情報が取得された場合、前記操作情報に基づいて前記映像の再生を制御する映像制御システムである。

　本発明の別の一態様は、楽曲の演奏を表す音響信号の入力に対する学習済みモデルからの出力に基づいて、前記音響信号の前記楽曲における演奏に関する演奏情報を推定し、前記推定された演奏情報に基づいて映像の再生を制御し、ユーザにより入力される操作であって、前記映像の再生に関する操作を表す操作情報を取得し、前記操作情報が取得された場合、前記操作情報に基づいて前記映像の再生を制御する、ことを含む映像制御方法である。

　本発明の実施形態によれば、特別な技術を有していないユーザであっても楽曲に合わせて映像を制御することができる。

実施形態の映像制御システム１の構成例を示すブロック図である。実施形態の演奏解析装置２０の構成例を示すブロック図である。実施形態の映像制御装置３０の構成例を示すブロック図である。実施形態の映像メタ情報記憶部３０４に記憶される情報の例を示す図である。実施形態の表示部３０２における表示の例を示す図である。実施形態の映像制御装置３０の動作を説明する図である。実施形態の映像制御システム１の動作の流れを示すシーケンス図である。

　以下、本発明の実施形態を、図面を参照して説明する。

　図１は、第１の実施形態の映像制御システム１の構成例を示すブロック図である。映像制御システム１は、例えば、収音装置１０と、演奏解析装置２０と、映像制御装置３０と、映像出力装置４０と、入力装置５０とを備える。

　収音装置１０は、演奏者による楽器の演奏や歌唱を収音して音響信号Ａを生成する。例えば、収音装置１０は、マイクロホンである。収音装置１０は、演奏解析装置２０と接続しており、演奏解析装置２０に、生成した音響信号Ａを出力する。なお、演奏者が電子楽器にて演奏する場合には、電子楽器から出力される演奏信号を、直接、演奏解析装置２０に出力するように構成されてもよい。この場合、収音装置１０は省略することが可能である。例えば、演奏信号は、ＭＩＤＩ信号である。
　以下の説明では、演奏は歌唱等の実演を含む。

　演奏解析装置２０は、例えば、メモリとプロセッサを含むコンピュータであってもよい。演奏解析装置２０は、収音装置１０から取得した音響信号Ａを解析することで音響信号Ａの演奏に関する演奏情報Ｂを推定する。この解析には、例えば、日本国特開２０１５－７９１８３号公報記載の技術が用いられる。日本国特開２０１５－７９１８３号公報の開示の全てをここに取り込む。演奏情報Ｂは、演奏に関係する情報であればよく、例えば、演奏の位置及び／又は演奏の速度を示す情報である。演奏解析装置２０は、映像制御装置３０と接続しており、映像制御装置３０に推定した演奏情報Ｂを出力する。
　演奏解析装置２０は、電子楽器から取得した演奏信号を解析することで演奏情報Ｂを推定してもよい。

　入力装置５０は、映像制御装置３０と接続し、後述する映像制御装置３０の表示部３０２（図５参照）に表示される内容に対して、ユーザにより操作入力される内容（指示）を取得する装置である。例えば、入力装置５０は、マウス、キーボード、タッチパネルなどの装置である。入力装置５０は、ユーザにより操作入力された内容を取得し、取得した内容に基づいて操作情報Ｄを生成する。操作情報Ｄは、ユーザによる表示部３０２に表示された内容に対する操作を示す情報である。操作情報Ｄは、例えば、映像制御装置３０が制御する映像の再生位置や再生速度を指定する情報である。入力装置５０は、映像制御装置３０に生成した操作情報Ｄを出力する。

　映像制御装置３０は、例えば、メモリとプロセッサを含むコンピュータであってもよい。映像制御装置３０は、演奏解析装置２０から取得した演奏情報Ｂ、又は、入力装置５０から取得した操作情報Ｄに基づいて、映像出力装置４０に出力させる映像の再生を制御する映像制御情報Ｃを生成する。映像制御情報Ｃは、映像の再生を制御する情報であって、例えば、映像の再生位置や再生速度を表す情報である。映像制御装置３０は、映像出力装置４０と接続しており、映像出力装置４０に生成した映像制御情報Ｃを出力する。

　映像制御システム１においては、映像制御装置３０は、機械による情報（演奏解析装置２０による演奏情報Ｂ）よりも、ユーザによる操作（入力装置５０からの操作情報Ｄ）を優先させて、映像の再生を制御する。具体的に、映像制御装置３０は、演奏情報Ｂに基づいて映像の再生を制御している際に、操作情報Ｄが入力された場合、操作情報Ｄに基づいて映像の再生を制御する。すなわち、映像制御装置３０は、操作情報Ｄに基づいて映像の再生を制御している期間以外は、演奏情報Ｂに基づいて映像の再生を制御する。これにより、ユーザは、例えば、通常の場合は機械により生演奏の演奏速度に映像の再生速度を合わせることができる。一方、ユーザは、楽曲のクライマックスなどの重要なフレーズ（決めの場面）では、ユーザ自らの操作により映像を制御して効果的な映像演出を実現することが可能である。

　映像出力装置４０は、映像制御装置３０から取得した映像制御情報Ｃに基づいて、映像データＭを生成し、生成した映像データＭを、スクリーン等の表示装置（不図示）に出力する。映像データＭは、表示装置に表示させる映像の情報である。

　図２は、実施形態の演奏解析装置２０の構成例を示すブロック図である。演奏解析装置２０は、例えば、音響信号取得部２００と、演奏情報推定部２０１と、演奏情報出力部２０２と、楽曲データ記憶部２０３と、学習済みモデル記憶部２０４と、制御部２０５とを備える。ここで、演奏情報推定部２０１は、「推定部」の一例である。

　音響信号取得部２００は、収音装置１０により出力された音響信号Ａを取得する。音響信号取得部２００は、取得した音響信号Ａを演奏情報推定部２０１に出力する。

　演奏情報推定部２０１は、音響信号Ａを学習済みモデルに入力することにより、音響信号Ａの楽曲における演奏に関する演奏情報Ｂを推定する。演奏情報推定部２０１は、推定した演奏情報Ｂを演奏情報出力部２０２に出力する。

　学習済みモデルは、学習に用いる演奏データである学習用演奏データとその学習用演奏データが示す演奏位置との対応関係を、機械学習を実行することにより学習したモデルである。機械学習の技法としては、隠れマルコフモデル（ＨＭＭ）、ディープラーニング、リカレントニューラルネットワーク、畳み込みニューラルネットワーク、サポートベクタマシン（ＳＶＭ）、決定木学習、遺伝的プログラミング、などの一般的に用いられている技法のいずれが用いられてもよい。

　例えば、学習済みモデルは、楽曲の音響信号を所定の周期で区分した演奏データ（学習用演奏データ）の各々に、各演奏データの演奏位置を対応付けたデータを学習データとして学習させたモデルである。学習済みモデルは、未学習の音響信号Ａが入力されると、音響信号Ａと学習済みの学習用演奏データとの類似度合いを算出する。類似度合いは、例えば、入力された音響信号Ａの特徴量をベクトル表現により数値化した値と、学習用演奏データの特徴量をベクトル表現により数値化した値との、ベクトル空間における距離として算出される。ベクトル空間における距離は、互いのベクトル表現により数値化した値の相関量に比例し、例えば、ベクトルの内積等により算出される。そして、学習済みモデルは、入力された音響信号Ａとのベクトル空間における距離が所定の閾値未満である、つまり類似している学習用演奏データに対応付けられた演奏位置を、音響信号Ａにおいて推定される演奏位置として出力する。

　演奏情報推定部２０１が推定する演奏情報Ｂは、例えば、音響信号Ａが現に演奏している楽曲上の位置に関係する情報である。この場合、演奏情報Ｂは、楽曲に対応する楽譜における、演奏開始からの小節の数、拍目、ティック等を示す情報である。或いは、演奏情報Ｂは、楽譜に示された速度（速度記号や速度用語により示される速度）で演奏が行われた場合における、演奏開始時点から演奏位置に到達するまでの時間を、演奏位置として示した情報であってもよい。この場合、演奏情報推定部２０１は、推定した演奏位置に基づいて、楽曲データ記憶部２０３を参照し、楽曲に対応する楽譜において示された速度を取得する。演奏情報推定部２０１は、取得した楽譜上の速度を用いて、演奏位置を演奏開始時点から演奏位置に到達するまでの時間に換算した演奏情報Ｂを導出する。

　演奏情報Ｂは、演奏の速度を表す演奏速度であってもよい。この場合、演奏情報推定部２０１は、演奏位置を時間微分することにより演奏速度を導出してもよい。演奏情報推定部２０１は、学習用演奏データにその学習用演奏データの演奏速度を対応付けたデータを学習データとして学習させた学習済みモデルを用いて演奏速度を推定するようにしてもよい。

　演奏情報推定部２０１は、映像制御装置３０から再生情報を取得した場合、演奏情報Ｂをその取得した再生情報に対応する内容（例えば、再生位置や再生速度）に設定（更新）する。再生情報は、映像制御装置３０が、現在、映像を再生している位置（再生位置）、又は再生速度を示す情報である。これにより、演奏情報推定部２０１により推定した演奏情報Ｂが、実際の演奏位置から外れている場合に、正しい演奏位置に設定し直すことが可能である。

　演奏情報出力部２０２は、演奏情報推定部２０１により推定された演奏情報Ｂを映像制御装置３０に出力する。
　楽曲データ記憶部２０３は、演奏者が演奏する楽曲の楽譜に相当する楽曲データを記憶する。楽曲データは、楽曲を構成する音符の各々について音高と音量と発音期間とが示された時系列データであり、例えば、ＭＩＤＩ形式のファイル（ＳＭＦ、Standard MIDI File）である。
　学習済みモデル記憶部２０４は、学習済みモデルを記憶する。
　制御部２０５は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、演奏解析装置２０の各要素を統括的に制御する。
　演奏解析装置２０とは別体の記憶装置（例えばクラウドストレージ）を用意し、その記憶装置に対して、移動体通信網またはインターネット等の通信網を介して制御部２０５が、楽曲データ記憶部２０３、及び学習済みモデル記憶部２０４に記憶する情報を書込みしたり読み出したりする構成とすることも可能である。この場合、演奏解析装置２０は、楽曲データ記憶部２０３、及び学習済みモデル記憶部２０４を備えていなくてもよい。

　図３は、実施形態の映像制御装置３０の構成例を示すブロック図である。映像制御装置３０は、例えば、演奏情報取得部３００と、操作情報取得部３０１と、表示部３０２と、映像制御部３０３と、映像メタ情報記憶部３０４と、制御部３０５とを備える。ここで、映像メタ情報記憶部３０４は、「記憶部」の一例である。

　演奏情報取得部３００は、演奏解析装置２０から演奏情報Ｂを取得する。操作情報取得部３０１は、取得した演奏情報Ｂを映像制御部３０３に出力する。
　操作情報取得部３０１は、入力装置５０から操作情報Ｄを取得する。操作情報取得部３０１は、取得した操作情報Ｄを映像制御部３０３に出力する。
　表示部３０２は、例えば、液晶ディスプレイであり、ユーザが映像の再生を操作する際のメニュー画面、操作画面、設定画面などを表示する。

　映像制御部３０３は、演奏情報Ｂ、又は操作情報Ｄに基づいて、映像の再生を制御する。映像制御部３０３は、例えば、ユーザにより予め設定された内容に応じて、演奏者が演奏する楽曲の区間ごとに、演奏情報Ｂ、又は操作情報Ｄに基づいて映像の再生を制御する。
　映像制御部３０３は、演奏情報Ｂに基づいて映像を制御する区間においては、演奏情報Ｂに対応する、映像位置及び／又は映像速度を指定する映像制御情報Ｃを生成する。
　映像制御部３０３は、操作情報Ｄに基づいて映像を制御する区間においては、操作情報Ｄに示される映像位置及び／又は映像速度に対応する映像制御情報Ｃを生成する。

　映像制御部３０３は、演奏情報Ｂに基づいて映像を制御している際に、操作情報取得部３０１から操作情報Ｄを取得した場合、操作情報Ｄに基づく制御に切り替える。すなわち、映像制御部３０３は、演奏情報Ｂに基づいて映像を制御する区間の演奏中に操作情報取得部３０１から操作情報Ｄを取得した場合、その区間を操作情報Ｄに基づいて制御する区間に切り替える。つまり、映像制御部３０３は、機械による制御（演奏情報Ｂに基づく制御）を行っている場合であっても、ユーザによる制御（操作情報Ｄに基づく制御）が操作された場合には、ユーザによる制御を優先させる。

　映像制御部３０３は、操作情報Ｄに基づいて映像を制御している際に、ユーザにより演奏情報Ｂに基づいて制御する旨を指示する操作がなされた場合、演奏情報Ｂに基づく制御に切り替える。映像制御部３０３は、操作情報Ｄに基づいて映像を制御する区間の演奏中にユーザにより演奏情報Ｂに基づいて制御する旨を指示する操作がなされた場合、その区間を演奏情報Ｂに基づいて制御する区間に切り替える。つまり、映像制御部３０３は、ユーザによる指示（演奏情報Ｂ又は操作情報Ｄに基づく制御をする旨の指示）がなされた場合には、ユーザによる指示に従う。

　映像制御部３０３は、操作情報Ｄに基づく制御を行っている際に、指示情報が操作情報取得部３０１により取得された場合、演奏解析装置２０の演奏情報推定部２０１に、再生情報を出力する。指示情報は、演奏情報Ｂに基づいて映像の再生を制御する旨の指示を示す情報である。再生情報は、現在、映像を再生している位置（再生位置）、又は再生速度を示す情報である。これにより、手動制御（操作情報Ｄに基づく制御）から自動制御（演奏情報Ｂに基づく制御）に切替わった際に映像の再生位置や再生速度が変化してしまうことがなく滑らかな切替えを行うことが可能である。

　映像制御部３０３は、操作情報Ｄに基づく制御を行っている際に、映像メタ情報を用いる。映像メタ情報は、映像メタ情報記憶部３０４に記憶される情報である。
　映像メタ情報は、ユーザが操作の対象とする対象映像とその対象映像における再生の内容（再生方法）を示すメタ情報とを対応付けた情報である。
　メタ情報は、再生の内容を示す情報であって、例えば、再生の有無、停止の有無、ジャンプカットの有無、ループの有無などである。再生の有無は、対象映像を表示させた後にその映像の再生位置を進める（再生する）か否かを示す情報である。停止の有無は対象映像を表示させた後にその映像の進みを停止させたままとするか否かを示す情報である。ジャンプカットは対象映像を表示させる際に、現在再生している画像の表示から対象画像の表示に直接切り替え、その間の映像を飛ばす（ジャンプカット）するか否かを示す情報である。ループの有無は、対象映像の再生が終了した際に、再度対象映像の再生を繰り返す（ループ）するか否かを示す情報である。

　映像メタ情報記憶部３０４は、映像メタ情報を記憶する。
　制御部３０５は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、映像制御装置３０の各要素を統括的に制御する。

　図４は、実施形態の映像メタ情報記憶部３０４に記憶される映像メタ情報の例を示す。映像メタ情報は、例えば、項目、秒数、マーカ情報ＲＧＢ、再生、停止、ジャンプカット、ループ、ＡＩ適用（自動制御適用）などの各項目を備える。

　項目は、映像メタ情報として登録された内容に付された番号である。秒数は、映像の位置を映像開始時点から経過時間［秒］により示す情報である。マーカ情報ＲＧＢは、操作の表示画面（図５参照）に登録した映像のサムネイル（図５の画像Ｇ６～Ｇ９）の枠に付す色をＲＧＢ値で示す情報である。これにより登録する映像が多くなる場合であっても、操作対象とする所望の映像のサムネイルを、ユーザが見分け易くすることが可能である。

　再生は登録した映像を表示させた後に再生を進めるか否かを示す情報である。停止は登録した映像を表示させた後に映像の進みを停止するか否かを示す情報である。ジャンプカットは登録した映像を表示させる際に間の映像をカットするか否かを示す情報である。ループは登録した映像を再生し終えた際に再度その映像の再生を行うか否かを示す情報である。ＡＩ適用は機械（演奏解析装置２０）による映像制御（自動映像制御）を適用するか否かを示す情報である。

　図４の例では、映像の開始時点（０秒後）、１秒後、６３０．８秒後、１２７４．５０秒後等の映像がそれぞれ登録されている。図４の例では、０秒後の映像は再生され、０秒から開始する区間では再生の制御にＡＩは適用しない。一方で、６３０．８秒から開始する区間では、再生の制御にＡＩが適用される。

　図５は、実施形態の表示部３０２における表示の例を示す。図５の例に示すように、表示部３０２は、例えば、画像Ｇ１～Ｇ９を表示する。
　画像Ｇ１は、ＡＩの適用、つまり演奏解析装置２０による映像制御を適用するか否かを操作する操作ボタンである。ＡＩ（自動制御）が適用されている状態において画像Ｇ１がクリックされると、映像制御が手動に切り替わる。ＡＩ（自動制御）が適用されていない状態（手動制御の状態）において画像Ｇ１がクリックされると、映像制御がＡＩ（自動制御）に切り替わる。画像Ｇ２は、映像の再生を制御する操作ボタンである。画像Ｇ２には再生、停止、早送り、及び巻き戻しなどの操作ボタンが設けられる。画像Ｇ３は再生速度を変更するスライドバー（ツマミ）である。スライドバーの画像Ｇ３０を上下方向に移動させる操作を行うことにより再生速度が変化する。例えば、画像Ｇ３０を上方向に移動させると再生速度が速くなり、画像Ｇ３０を下方向に移動させると再生速度が遅くなる。

　画像Ｇ４は、再生中の画像が表示される再生画面である。画像Ｇ５は、映像メタ情報として登録された映像に切り替える操作を行うための画像である。画像Ｇ６～Ｇ９は、映像メタ情報として登録された映像の各々の先頭に位置する映像のサムネイル画像である。画像Ｇ６は映像の開始時点から０秒後の映像である。画像Ｇ７は映像の開始時点から１秒後の映像である。画像Ｇ８は映像の開始時点から６３０．８０秒後の映像である。画像Ｇ９は映像の開始時点から１２７４．５０秒後の映像である。

　図６は、実施形態の映像制御装置３０の動作を説明する図である。
　演奏情報取得部３００により取得された演奏情報Ｂは、映像制御部３０３のセレクタ３０３Ａに入力される。
　操作情報取得部３０１により取得された、映像の再生速度を変更する操作（スライドバーの画像Ｇ３０を移動させる操作）を示す操作信号は、セレクタ３０３Ａに入力される。また、この操作信号は、ＡＩ（自動制御）をＯＦＦする操作を示す操作信号に変換される。すなわち、この操作信号は、ＡＩ適用をＯＮからＯＦＦに切り替える操作（画像Ｇ１をクリックする操作）に変換される。この変換された操作は、ＡＩをＯＦＦする操作を示す操作信号として、セレクタ３０３Ａに入力される。この操作信号はセレクタ３０３Ａから信号を出力するか否かを選択する制御を示す信号として、セレクタ３０３Ａに入力される。つまり、ＡＩをＯＦＦする操作を示す操作信号がセレクタ３０３Ａに入力されると、セレクタ３０３Ａからは操作信号が出力される。一方で、ＡＩをＯＮする操作を示す操作信号がセレクタ３０３Ａに入力されると、セレクタ３０３Ａから操作信号が出力されない。

　セレクタ３０３Ａから出力された操作信号は、映像制御部３０３の機能部（再生速度制御部）３０３Ｂに入力される。機能部３０３Ｂは、再生速度を制御する機能部である。機能部３０３Ｂは、操作信号から映像制御情報Ｃ（再生速度制御情報）を生成して映像出力装置４０に出力する。また、機能部３０３Ｂは、生成した映像制御情報Ｃ（演奏位置指定情報）を演奏解析装置２０に出力（フィードバック）する。この例に示すように、機能部３０３Ｂは、ユーザによる手動の操作に切替えられた際に、周期的に映像制御情報Ｃ（演奏位置指定情報）を演奏解析装置２０にフィードバックしてもよい。

　操作情報取得部３０１により取得された、映像の切り替えるシーン切替画面の操作（画像Ｇ６～Ｇ９をクリックする操作）を示す操作信号は、映像制御部３０３の機能部（再生位置制御部）３０３Ｃに入力される。機能部３０３Ｃは、再生位置を制御する機能部である。機能部３０３Ｃは、入力された操作信号から映像制御情報Ｃ（再生位置制御情報）を生成して映像出力装置４０に出力する。また、機能部３０３Ｃは、生成した映像制御情報Ｃ（演奏位置指定情報）を演奏解析装置２０に出力（フィードバック）する。この例に示すように、機能部３０３Ｃは、ユーザにより映像が切替えられた際に、周期的に映像制御情報Ｃ（演奏位置指定情報）を演奏解析装置２０にフィードバックしてもよい。

　図７は、実施形態の映像制御システム１の動作の流れを示すシーケンス図である。
　まず、収音装置１０は演奏（生演奏、リアルタイムの演奏）の音を収音し（ステップＳ１０）、収音した音を用いて音響信号Ａを生成する（ステップＳ１１）。収音装置１０は、生成した音響信号Ａを演奏解析装置２０に出力する。

　演奏解析装置２０は、収音装置１０より音響信号Ａを取得し（ステップＳ１２）、取得した音響信号Ａを学習済みモデルに入力する（ステップＳ１３）。演奏解析装置２０は、学習済みモデルからの出力を、音響信号Ａにおいて推定された演奏情報Ｂとする（ステップＳ１４）。または、演奏解析装置２０は、学習済みモデルからの出力に基づいて、演奏情報Ｂを推定してもよい。演奏解析装置２０は、推定した演奏情報Ｂを映像制御装置３０に出力する。
　映像制御装置３０は、演奏解析装置２０より演奏情報Ｂを取得し（ステップＳ１５）、取得した演奏情報Ｂに基づいて映像の再生を制御する（ステップＳ１６）。

　入力装置５０には、ユーザの操作による入力を示す入力情報が入力される（ステップＳ１７）。入力装置５０は、入力情報を用いて操作情報Ｄを生成する（ステップＳ１８）。入力装置５０は、生成した操作情報Ｄを映像制御装置３０に出力する。
　映像制御装置３０は、入力装置５０から操作情報Ｄを取得すると（ステップＳ１９）、映像の制御を切り替え、操作情報Ｄに基づいて映像の再生の制御を行う（ステップＳ２０）。

　以上説明したように、第１の実施形態の映像制御システム１は、楽曲の演奏を表す音響信号Ａの入力に対する学習済みモデルからの出力に基づいて、音響信号Ａにおける楽曲における演奏に関する演奏情報Ｂを推定する演奏情報推定部２０１（「推定部」の一例）と、ユーザにより入力される操作であって、映像の再生に関する操作を表す操作情報Ｄを取得する操作情報取得部３０１（「取得部」の一例）と、演奏情報推定部２０１により推定された演奏情報Ｂ、又は操作情報取得部３０１により取得された操作情報Ｄに基づいて映像の再生を制御する映像制御部３０３と、を備える。映像制御部３０３は、操作情報取得部３０１により操作情報Ｄが取得された場合、操作情報Ｄに基づいて映像の再生を制御する。

　これにより、第１の実施形態の映像制御システム１は、演奏情報に応じて映像を制御することができる。その結果、特別な技術を有していないユーザであっても楽曲に合わせて映像を制御することが可能である。また、ユーザからの操作情報Ｄが取得された場合には、操作情報Ｄに基づいて映像の再生を制御することができる。このため、楽曲のクライマックスなどの重要なフレーズ（決めの場面）や収音装置１０が故障して演奏解析装置２０に音響信号Ａが入力されない等の不測の事態において、ユーザの操作により映像を制御することができ、より効果的な映像演出を実現することが可能である。

　また、第１の実施形態の映像制御システム１では、学習済みモデルは、学習に用いる演奏データである学習用演奏データとその学習用演奏データが示す演奏の位置又は速度との対応関係を、機械学習を実行することにより学習したモデルである。演奏情報推定部２０１は、音響信号Ａにおける楽曲における演奏の位置又は速度に関する演奏情報Ｂを推定する。これにより、第１の実施形態の映像制御システム１は、演奏情報に示される演奏の位置や速度に応じて、映像の再生位置や再生速度を制御することができる。その結果、例えば、生演奏の演奏速度（テンポ）が遅くなったり早くなったりする場合であっても、映像の再生速度を生演奏の演奏速度に合わせることができる。

　また、第１の実施形態の映像制御システム１では、映像制御部３０３は、操作情報Ｄに基づいて映像の再生を制御している際に、演奏情報に基づいて映像の再生を制御する旨を指示する指示情報が操作情報取得部３０１により取得された場合、演奏情報推定部２０１に映像における再生の速度に関する再生情報を出力する。演奏情報推定部２０１は、映像制御部３０３から取得した再生情報を用いて、演奏情報を再生情報に基づいて設定（更新）する。
　これにより、第１の実施形態の映像制御システム１では、ユーザの操作による映像の制御から、機械（演奏情報推定部２０１）による制御（自動制御）に戻すことができる。また、機械に制御を戻す際に現在の再生速度や再生位置を機械側に通知することで、機械の制御に切替わった際に映像の再生位置や再生速度が変化してしまうことがなく滑らかな切替えを行うことが可能である。

　また、第１の実施形態の映像制御システム１では、操作の対象である対象映像と対象映像の再生方法を示すメタ情報とを対応付けた情報を記憶する映像メタ情報記憶部３０４、を更に備える。操作情報Ｄは、対象映像を示す情報（対象映像の選択を示す情報）である。映像制御部３０３は、操作情報Ｄとしての対象映像を示す情報が操作情報取得部３０１により取得された場合、メタ情報によって示される再生方法で対象映像を再生する。これにより、第１の実施形態の映像制御システム１では、ユーザが手動により映像を制御する場合に、表示させたい映像（対象映像）に対応付けて、映像の再生方法（例えば、待機する、所定の映像区間の再生を繰り返す（ループする）など）をメタ情報として記録させる（登録する）ことができる。このため、ユーザは、予め登録した映像を選択しさえすれば、メタ情報に登録した通りに映像を再生させることができ、映像を停止させたりループさせたりする操作を行う必要がないため再生速度の調整に集中することができる。

　また、第１の実施形態の映像制御システム１は、演奏情報推定部２０１を有し、演奏情報を送信する演奏解析装置２０と、操作情報取得部３０１と映像制御部３０３とを有し、演奏情報Ｂを受信する映像制御装置３０と、を備える構成としてもよい。これにより、上述した効果と同様の効果を奏する。

（実施形態の変形例）
　次に、第１の実施形態の変形例について説明する。本変形例では、演奏解析装置２０は、学習済みモデル記憶部２０４に複数の学習済みモデルを記憶させる点において、上述した実施形態と相違する。
　複数の学習済みモデルの各々は、楽曲の種別ごとに異なる学習データを用いて学習させたモデルである。楽曲の種別は、演奏のスタイルが異なるジャンルである。楽曲の種別の具体例は、オーケストラ、室内楽、歌唱、ロックなどである。
　複数の学習済みモデルのうち、ある学習済みでモデルは、様々なオーケストラによる演奏を所定の周期で区分した演奏データ（学習用演奏データ）の各々に、各演奏データの演奏位置を対応付けたデータを学習データとして学習させたモデルである。また、複数の学習済みモデルのうち、別の学習済みでモデルは、様々な室内楽による演奏を所定の周期で区分した演奏データ（学習用演奏データ）の各々に、各演奏データの演奏位置を対応付けたデータを学習データとして学習させたモデルである。歌唱やロックなどのジャンルについても同様である。
　本変形例では、このように楽曲のジャンル（種別）に応じた学習データを用いて学習させた、複数の互いに学習内容の異なる学習済みモデルを用いる。
　そして、演奏者が演奏する楽曲のジャンルに応じて、推定に用いる学習済みモデルを切り替える。例えば、演奏者がオーケストラを演奏する場合、オーケストラの演奏を学習した学習済みモデルを用いる。演奏者が室内楽を演奏する場合、室内楽の演奏を学習した学習済みモデルを用いる。歌唱やロックなどのジャンルについても同様である。

　以上説明したように、第１の実施形態の変形例の映像制御システム１では、学習済みモデルは、楽曲の種別に応じて複数設けられる。演奏情報推定部２０１は、音響信号Ａに対応する楽曲の種別に応じた学習済みモデルを用いて演奏情報Ｂを推定する。これにより、第１の実施形態の変形例の映像制御システム１では、演奏させる楽曲の種別（ジャンル）に応じた学習済みモデルを用いて演奏情報Ｂを推定することができるので、オーケストラや、室内楽、ロック、歌唱などの各々のジャンルに特有の特徴（例えば、演奏中のテンポが変化しやすい、或いは変化し難いなど）を反映させた演奏情報Ｂを推定することができる。その結果、映像の再生を、演奏される楽曲によりマッチさせることが可能となる。

　上述した実施形態における映像制御システム１の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。

　本発明は、映像制御システム及び映像制御方法に適用してもよい。

　１…映像制御システム
　２０…演奏解析装置
　２００…音響信号取得部
　２０１…演奏情報推定部
　２０２…演奏情報出力部
　２０３…楽曲データ記憶部
　２０４…学習済みモデル記憶部
　２０５…制御部
　３０…映像制御装置
　３００…演奏情報取得部
　３０１…操作情報取得部
　３０２…表示部
　３０３…映像制御部
　３０４…映像メタ情報記憶部
　３０５…制御部

Claims

　楽曲の演奏を表す音響信号の入力に対する学習済みモデルからの出力に基づいて、前記音響信号の前記楽曲における演奏に関する演奏情報を推定する推定部と、
　ユーザにより入力される操作であって、映像の再生に関する操作を表す操作情報を取得する取得部と、
　前記推定された演奏情報に基づいて前記映像の再生を制御する映像制御部と、
　を備え、
　前記映像制御部は、前記取得部により前記操作情報が取得された場合、前記操作情報に基づいて前記映像の再生を制御する、
　映像制御システム。
　前記学習済みモデルは、学習に用いる演奏データである学習用演奏データと前記学習用演奏データにより示された楽曲における演奏の位置又は速度との対応関係を、機械学習を実行することにより学習したモデルである、
　請求項１に記載の映像制御システム。
　前記推定部は、前記演奏情報として、前記音響信号の前記楽曲における演奏の位置又は速度に関する情報を推定する、
　請求項１又は２に記載の映像制御システム。
　前記取得部は、前記操作情報に基づいて前記映像の再生を行う制御から前記演奏情報に基づいて前記映像の再生を行う制御への切り替えを指示する指示情報を取得し、
　前記映像制御部は、前記指示情報が前記取得部により取得された場合、前記推定部に前記映像の再生の位置に関する再生情報を出力し、
　前記推定部は、前記取得した再生情報に基づいて、前記演奏情報を設定する、
　請求項１から請求項３のいずれか一項に記載の映像制御システム。
　対象映像と前記対象映像の再生方法を示すメタ情報とを対応付けた情報を記憶する映像メタ情報記憶部、を更に備え、
　前記操作情報は、前記対象映像の選択を示す情報であり、
　前記映像制御部は、前記対象映像の選択を示す情報が前記取得部により取得された場合、前記メタ情報によって示される前記再生方法で前記対象映像を再生する、
　請求項１から請求項４の何れか一項に記載の映像制御システム。
　前記学習済みモデルは、それぞれ異なる楽曲の種別に応じた複数の学習済みモデルを含み、
　前記推定部は、前記複数の学習済みモデルのうち、前記音響信号に対応する楽曲の種別に応じた学習済みモデルを用いて前記演奏情報を推定する、
　請求項１から請求項５の何れか一項に記載の映像制御システム。
　前記音響信号は、生演奏を表す、
　請求項１から請求項６の何れか一項に記載の映像制御システム。
　前記推定部を有し、前記演奏情報を送信する演奏解析装置と、
　前記取得部と前記映像制御部とを有し、前記演奏情報を受信する映像制御装置と、
　を備える請求項１から請求項７の何れか一項に記載の映像制御システム。
　楽曲の演奏を表す音響信号の入力に対する学習済みモデルからの出力に基づいて、前記音響信号の前記楽曲における演奏に関する演奏情報を推定し、
　前記推定された演奏情報に基づいて映像の再生を制御し、
　ユーザにより入力される操作であって、前記映像の再生に関する操作を表す操作情報を取得し、
　前記操作情報が取得された場合、前記操作情報に基づいて前記映像の再生を制御する、
　ことを含む映像制御方法。