WO2021210338A1

WO2021210338A1 - 再生制御方法、制御システムおよびプログラム

Info

Publication number: WO2021210338A1
Application number: PCT/JP2021/011032
Authority: WO
Inventors: 入山　達也
Original assignee: ヤマハ株式会社
Priority date: 2020-04-17
Filing date: 2021-03-18
Publication date: 2021-10-21
Also published as: CN115398534A; JP7468111B2; JP2021173766A; US20230042477A1

Abstract

制御システムは、第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信する受信部と、第１再生要求に応じた音を表す第１音響信号と、第１音響信号が表す音とは音響特性が異なる音であって第２再生要求に応じた音を表す第２音響信号とを取得する取得部と、第１音響信号と第２音響信号とを混合することにより第３の音響信号を生成する混合部と、第３の音響信号が表す音を再生システムに再生させる再生部とを具備する。

Description

再生制御方法、制御システムおよびプログラム

　本開示は、例えば音響ホール等の音響空間における音の再生を制御する技術に関する。
　この出願は、２０２０年４月１７日に出願された日本国特願２０２０－０７４２６０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　例えば音響ホール等の音響空間で実施されるコンサートまたはライブ等のイベントを、多数の利用者が遠隔地において視聴するためのシステムが従来から提案されている（例えば特許文献１）。

米国特許第９１３１０１６号明細書

　しかし、遠隔地の利用者が音響空間内のイベントを視聴する状況では、音響空間内に所在する歌唱者または演奏者等の実演者が、自身の実演を視聴している利用者の状況を把握し難いという課題がある。例えば、遠隔地の利用者の総数または反応を、実演者は把握できない。

　本開示のひとつの態様に係る再生制御方法は、コンピュータシステムにより実現され、第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信し、前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得し、前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成し、前記第３の音響信号が表す音を再生システムに再生させることを含む。

　本開示のひとつの態様に係る制御システムは、第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信する受信部と、前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得する取得部と、前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成する混合部と、前記第３の混合後の音響信号が表す音を再生システムに再生させる再生部とを具備する。

　本開示のひとつの態様に係るプログラムは、第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信する受信部、前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得する取得部、前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成する混合部、および、前記第３の音響信号が表す音を再生システムに再生させる再生部としてコンピュータを機能させる。

第１実施形態における通信システムの構成を例示するブロック図である。端末装置の構成を例示するブロック図である。受付処理の具体的な手順を例示するフローチャートである。制御システムの構成を例示するブロック図である。再生制御処理の具体的な手順を例示するフローチャートである。第４実施形態における再生制御処理の具体的な手順を例示するフローチャートである。第４実施形態の再生制御処理における設定処理および調整処理の説明図である。第５実施形態における設定処理の説明図である。

Ａ：第１実施形態
　図１は、第１実施形態に係る通信システム１００の構成を例示するブロック図である。通信システム１００は、複数（Ｎ個）の端末装置１０_1～１０_Nと制御システム（コンピュータシステム）２０と収録システム３０と再生システム４０とを具備する（Ｎは２以上の自然数）。以下の説明においては、Ｎ個の端末装置１０_1～１０_Nのうち任意の１個の端末装置１０_n（ｎ＝１～Ｎ）に関連する要素の符号に添字_nを付加する。なお、端末装置１０_nの個数Ｎは可変の数値である。

　収録システム３０および再生システム４０は、各種のイベントが実施される施設２００内に設置される。施設２００は、音楽イベントが実施される音響空間である。音楽イベントにおいては実演者Ｐが実演する。例えば実演者Ｐが楽曲を歌唱するライブ、または実演者Ｐが楽器を演奏するコンサート等の各種の音楽イベントが想定される。例えば音響ホール、ライブハウスまたは野外ステージ等が施設２００の具体例である。なお、第１実施形態においては、施設２００内に聴衆が存在しない場合を想定する。例えば感染症の蔓延の防止等の種々の事情により、施設２００内に聴衆が存在しない状況で音楽イベントが実施される。通常の音楽イベントにおいては実演者Ｐが施設２００内の聴衆の状況を把握できるが、第１実施形態の音楽イベントにおいては、施設２００内の聴衆の状況を実演者Ｐが把握できない。

　収録システム３０は、施設２００内で実施される音楽イベントの動画を収録する。具体的には、収録システム３０は、音楽イベントの映像を撮影する撮影装置と、音楽イベントの音を収音する収音装置とを具備する。撮影装置が撮影する映像と収音装置が収音する音とで構成される動画が収録システム３０により生成される。

　再生システム４０は、施設２００内に音を再生する。再生システム４０は、例えば施設２００内の相異なる場所に設置された複数の放音装置（例えばスピーカ装置）を具備する。音楽イベントの実演者Ｐは、その音楽イベントにおける実演中に再生システム４０による再生音を聴取可能である。収録システム３０および再生システム４０は、制御システム２０と通信可能である。

　制御システム２０は、配信制御部２０aと再生制御部２０bとを具備する。配信制御部２０aは、収録システム３０が収録した動画を表す動画データＭをＮ個の端末装置１０_1～１０_Nの各々に配信する。動画データＭは、例えば音楽イベントの進行に並行して実時間的（リアルタイム）に各端末装置１０_nに対してストリーミング配信される。再生制御部２０bは、Ｎ個の端末装置１０_1～１０_Nの各々の利用者Ｕ_nからの指示に応じた音を再生システム４０に再生させる。なお、配信制御部２０aを具備するシステムと再生制御部２０bを具備するシステムとを個別に設置してもよい。

　Ｎ個の端末装置１０_1～１０_Nの各々は、例えばスマートフォンまたはタブレット端末等の可搬型の情報端末である。なお、据置型または可搬型のパーソナルコンピュータを端末装置１０_nとして利用してもよい。各端末装置１０_nは、例えば移動体通信網またはインターネット等の通信網３００を介して制御システム２０と通信する。端末装置１０_nの利用者Ｕ_nは、施設２００の外側に位置する。例えば、利用者Ｕ_nは、施設２００から遠隔の地点（例えば自宅）に所在する。

　図２は、端末装置１０_nの構成を例示するブロック図である。端末装置１０_nは、制御装置１１と記憶装置１２と通信装置１３と再生装置１４と操作装置１５とを具備する。なお、端末装置１０_nは、単体の装置として実現されてもよく、相互に別体で構成された複数の装置の集合として実現されてもよい。

　制御装置１１は、端末装置１０_nの各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。

　記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体により構成される。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。

　通信装置１３は、通信網３００を介して制御システム２０と通信する。例えば、通信装置１３は、制御システム２０から送信された動画データＭを受信する。再生装置１４は、制御装置１１による制御のもとで、映像と音とを含む動画を再生する。具体的には、再生装置１４は、映像を表示する表示装置と、音を放射する放音装置とを具備する。

　制御装置１１は、通信装置１３が受信した動画データＭが表す動画を再生装置１４に再生させる。すなわち、音楽イベントの進行に並行してその音楽イベントの動画が各端末装置１０_nの再生装置１４により再生される。以上の説明から理解される通り、相異なる端末装置１０_nを利用する複数（Ｎ人）の利用者Ｕ_1～Ｕ_Nが、施設２００の外側において音楽イベントの動画を視聴する。

　操作装置１５は、利用者Ｕ_nからの指示を受付ける入力機器である。操作装置１５は、例えば、利用者Ｕ_nが操作する複数の操作子、または、利用者Ｕ_nによる接触を検知するタッチパネルである。

　利用者Ｕ_nは、操作装置１５を操作することで所望の文字列Ｘ_nを入力する。具体的には、利用者Ｕ_nは、再生装置１４が再生する音楽イベントの動画を視聴しながら、任意の時点において文字列Ｘ_nを指示できる。文字列Ｘ_nは、例えば音楽イベントの実演者Ｐに対する歓声を表す１個以上の語句で構成される。例えば「オー（Oh）」「ウワー（Wow）」等の感嘆詞または実演者Ｐの名前等の各種の文字列Ｘ_nが利用者Ｕ_nにより指示される。すなわち、文字列Ｘ_nは、例えば施設２００内の聴衆が所在する通常の音楽イベントにおいてその聴衆が実演者Ｐに対して発声する声援を表す文字列である。

　図３は、端末装置１０_nの制御装置１１が文字列Ｘ_nに関して実行する処理（以下「受付処理」という）Ｓaの具体的な手順を例示するフローチャートである。動画データＭが表す動画が再生される期間内に所定の周期で受付処理Ｓaが反復される。

　受付処理Ｓaが開始されると、制御装置１１は、利用者Ｕ_nから文字列Ｘ_nを受付けたか否かを判定する（処理Ｓa1）。文字列Ｘ_nを受付けた場合（処理Ｓa1：YES）、制御装置１１は、その文字列Ｘ_nを含む再生要求Ｒ_nを通信装置１３から制御システム２０に送信する（処理Ｓa2）。再生要求Ｒ_nは、文字列Ｘ_nに対応する音声を施設２００内で再生することを要求するデータである。他方、文字列Ｘ_nを受付けない場合（処理Ｓa1：NO）、再生要求Ｒ_nの送信（処理Ｓa2）は実行されない。以上の説明から理解される通り、Ｎ個の端末装置１０_1～１０_Nの各々から、利用者Ｕ_nによる指示に応じた再生要求Ｒ_nが並列または順次に制御システム２０に送信される。

　なお、以下の説明においては、Ｎ人の利用者Ｕ_1～Ｕ_Nのうち任意の２人の利用者Ｕ_n1および利用者Ｕ_n2に便宜的に着目する場合がある（ｎ1≠ｎ2）。例えば、前述の受付処理Ｓaにより、利用者Ｕ_n1が指示した文字列Ｘ_n1を含む再生要求Ｒ_n1が端末装置１０_n1から送信され、利用者Ｕ_n2が指示した文字列Ｘ_n2を含む再生要求Ｒ_n2が端末装置１０_n2から送信される。

　なお、端末装置１０_n1は「第１端末装置」の一例である。端末装置１０_n2は「第２端末装置」の一例である。また、利用者Ｕ_n1は「第１利用者」の一例である。利用者Ｕ_n2は「第２利用者」の一例である。再生要求Ｒ_n1は「第１再生要求」の一例であり、再生要求Ｒ_n2は「第２再生要求」の一例である。文字列Ｘ_n1は「第１文字列」の一例である。文字列Ｘ_n2は「第２文字列」の一例である。

　図４は、制御システム２０の構成を例示するブロック図である。制御システム２０は、制御装置２１と記憶装置２２と通信装置２３とを具備する。なお、制御システム２０は、単体の装置として実現されてもよく、相互に別体で構成された複数の装置の集合として実現されてもよい。

　制御装置２１は、制御システム２０の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置２１は、ＣＰＵ、ＳＰＵ、ＤＳＰ、ＦＰＧＡ、またはＡＳＩＣ等の１種類以上のプロセッサにより構成される。

　記憶装置２２は、制御装置２１が実行するプログラムと制御装置２１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置２２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体により構成される。なお、複数種の記録媒体の組合せにより記憶装置２２を構成してもよい。

　通信装置２３は、通信網３００を介してＮ個の端末装置１０_1～１０_Nの各々と通信する。例えば、通信装置２３は、収録システム３０が収録した動画を表す動画データＭを各端末装置１０_nに送信する。また、通信装置２３は、Ｎ個の端末装置１０_1～１０_Nの各々から送信された再生要求Ｒ_nを受信する。なお、通信装置２３が通信網３００を介して収録システム３０または再生システム４０と通信してもよい。

　図５は、制御装置２１（再生制御部２０b）が実行する処理（以下「再生制御処理」という）Ｓbの具体的な手順を例示するフローチャートである。例えば所定の周期で再生制御処理Ｓbが反復される。

　再生制御処理Ｓbが開始されると、制御装置２１は、各端末装置１０_nから送信された再生要求Ｒ_nを通信装置２３により受信する（処理Ｓb1）。すなわち、制御装置２１は、Ｎ個の端末装置１０_1～１０_Nのうち１以上の端末装置１０_nから再生要求Ｒ_nを受信する。例えば、制御装置２１は、再生要求Ｒ_n1を端末装置１０_n1から受信し、再生要求Ｒ_n2を端末装置１０_n2から受信する。以上の通り、制御装置２１は、複数の端末装置１０_nの各々から再生要求Ｒ_nを受信する要素（受信部）として機能する。

　制御装置２１は、再生要求Ｒ_nに応じた音響信号Ｙ_nを、端末装置１０_nから受信した再生要求Ｒ_n毎に生成する（処理Ｓb2）。例えば、再生要求Ｒ_n1に応じた音響信号Ｙ_n1と再生要求Ｒ_n2に応じた音響信号Ｙ_n2とが生成される。音響信号Ｙ_nは、再生要求Ｒ_nに含まれる文字列Ｘ_nに対応する音声の波形を表す信号である。すなわち、仮想的な発話者が文字列Ｘ_nを読上げたときに発音される音声を表す音響信号Ｙ_nが生成される。具体的には、音楽イベントの実演者Ｐに対する歓声を表す音響信号Ｙ_nが生成される。音響信号Ｙ_nの時間長は、文字列Ｘ_nを構成する文字数に応じて可変する長さである。例えば、文字列Ｘ_nの文字数が多いほど音響信号Ｙ_nの時間長はより長い。

　制御装置２１は、音響信号Ｙ_n毎に音高が相違するように各音響信号Ｙ_nを生成する。例えば、音響信号Ｙ_n1の音高と音響信号Ｙ_n2の音高とは相違する。音響信号Ｙ_n1は「第１音響信号」の一例である。音響信号Ｙ_n2は「第２音響信号」の一例である。

　第１実施形態の制御装置２１は、文字列Ｘ_nを適用した音声合成処理により音響信号Ｙ_nを生成する。例えば、制御装置２１は、文字列Ｘ_n1を適用した音声合成処理により音響信号Ｙ_n1を生成し、文字列Ｘ_n2を適用した音声合成処理により音響信号Ｙ_n2を生成する。音響信号Ｙ_nの生成には公知の音声合成技術が任意に採用される。例えば、複数の音声素片を接続する素片接続型の音声合成処理が音響信号Ｙ_nの生成に利用される。また、例えば深層ニューラルネットワークまたはＨＭＭ（Hidden Markov Model）等の統計モデルを利用する統計モデル型の音声合成処理を、音響信号Ｙ_nの生成に利用してもよい。音声合成処理に適用されるパラメータを調整することで、音響信号Ｙ_n毎に音高を相違させることが可能である。以上の説明から理解される通り、制御装置２１は、再生要求Ｒ_nに応じた音響信号Ｙ_nを取得する要素（取得部）として機能する。

　制御装置２１は、複数の音響信号Ｙ_nを混合することで音響信号Ｚを生成する（処理Ｓb3）。時間軸上における各音響信号Ｙ_nの位置は、制御装置２１が再生要求Ｒ_nを受信した時点に応じて設定される。例えば、再生要求Ｒ_n2の受信前に再生要求Ｒ_n1が受信された場合、音響信号Ｙ_n1の始点が音響信号Ｙ_n2の始点前となるように、音響信号Ｙ_n1と音響信号Ｙ_n2とが混合される。以上の説明から理解される通り、制御装置２１は、複数の音響信号Ｙ_nを混合する要素（混合部）として機能する。

　なお、複数の音響信号Ｙ_nを一斉に混合することも可能であるが、複数の音響信号Ｙ_nを段階的に混合してもよい。例えば、制御装置２１は、複数の音響信号Ｙ_nを複数の集合に区分し、集合毎に２以上の音響信号Ｙ_nを混合することで中間信号を生成する（第１段階）。そして、制御装置２１は、相異なる集合に対応する複数の中間信号をさらに混合することで音響信号Ｚを生成する（第２段階）。また、各音響信号Ｙ_nに残響効果等の各種の音響効果を付与したうえで複数の音響信号Ｙ_nを混合してもよい。複数の音響信号Ｙ_nを段階的に混合する構成では、段階毎に音響効果を付与する構成としてもよい。

　制御装置２１は、音響信号Ｚが表す音を再生システム４０に再生させる（処理Ｓb4）。具体的には、制御装置２１は、音響信号Ｚを再生システム４０に供給することで、その音響信号Ｚが表す音を再生させる。すなわち、制御装置２１は、混合後の音響信号Ｚが表す音を再生システム４０に再生させる要素（再生部）として機能する。

　以上の説明から理解される通り、複数の利用者Ｕ_nから指示された歓声の混合音が施設２００内で再生される。第１実施形態においては、各音響信号Ｙ_nが表す音響の音響特性が相違するから、複数の音響信号Ｙ_nの間で音響特性が共通する構成と比較して、音楽イベントの実演者Ｐが利用者Ｕ_nの状況を把握し易いという利点がある。例えば、実演者Ｐは、利用者Ｕ_nの総数（規模）または反応を把握できる。

　第１実施形態においては、各利用者Ｕ_nが指示した文字列Ｘ_nに対応する音声を表す音響信号Ｙ_nが、その文字列Ｘ_nを適用した音声合成処理により生成される。したがって、各利用者Ｕ_nが指示した任意の文字列Ｘ_nに対応する多様な音響信号Ｙ_nを生成できるという利点がある。

Ｂ：第２実施形態
　第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

　各端末装置１０_nの記憶装置１２は、利用者Ｕ_nの属性を表す属性情報を記憶する。利用者Ｕ_nの属性は、例えば利用者Ｕ_nの年齢または性別である。第２実施形態の再生要求Ｒ_nは、第１実施形態と同様の文字列Ｘ_nと、記憶装置１２に記憶された属性情報とを含む。具体的には、制御装置２１は、受付処理Ｓaにおいて、利用者Ｕ_nから文字列Ｘ_nを受付けると（処理Ｓa1：YES）、その文字列Ｘ_nと利用者Ｕ_nの属性情報とを含む再生要求Ｒ_nを通信装置１３から制御システム２０に送信する（処理Ｓa2）。

　制御システム２０の制御装置２１は、再生制御処理Ｓbの音声合成処理において、各再生要求Ｒ_n内の属性情報に応じた声質を表す音響信号Ｙ_nを生成する（処理Ｓb2）。具体的には、制御装置２１は、属性情報が表す年齢が低いほど明瞭度がより高い音声（すなわち若年者の音声）を表す音響信号Ｙ_nを生成する。明瞭度が高い音声とは、例えば調波成分が非調波成分（気息成分）と比較して顕著な音声である。また、制御装置２１は、属性情報が表す性別に応じて男声または女声の何れかの音質を表す音響信号Ｙ_nを生成する。以上の説明から理解される通り、第２実施形態の制御装置２１は、利用者Ｕ_n1の属性に応じた声質を表す音響信号Ｙ_n1を生成し、利用者Ｕ_n2の属性に応じた声質を表す音響信号Ｙ_n2を生成する。複数の音響信号Ｙ_nを混合する処理と音響信号Ｚを再生する処理は第１実施形態と同様である。

　第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、各利用者Ｕ_nの属性に応じた多様な声質を表す音響信号Ｙ_nを生成できる。また、音楽イベントを聴取する複数の利用者Ｕ_nの概略的な属性を、再生システム４０による再生音を受聴する実演者Ｐが把握できるという利点もある。なお、音響信号Ｙ_nが表す音の声質は、利用者Ｕ_nの属性に整合した声質である必要はない。例えば、利用者Ｕ_nの属性情報が表す性別が男性である場合に、女声を表す音響信号Ｙ_nを生成してもよい。すなわち、利用者Ｕ_nの属性に応じて音響信号Ｙ_nが表す声質（音響特性の一例）が変化する構成であれば任意の構成を採用してよい。

Ｃ：第３実施形態
　第３実施形態における制御システム２０の制御装置２１は、再生制御処理Ｓbの音声合成処理において、文字列Ｘ_nに応じた音量の音声を表す音響信号Ｙ_nを生成する（処理Ｓb2）。具体的には、制御装置２１は、文字列Ｘ_nの文字数が多いほど音量がより大きい音響信号Ｙ_nを生成する。以上の説明から理解される通り、第３実施形態の制御装置２１は、文字列Ｘ_n1に応じた音量の音声を表す音響信号（文字列Ｘ_n1の長さに比例した音量の音声を表す音響信号）Ｙ_n1を生成し、文字列Ｘ_n2に応じた音量を表す音響信号Ｙ_n2を生成する。

　第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、各利用者Ｕ_nが指示した文字列Ｘ_nに応じた多様な音量の音声を表す音響信号Ｙ_nを生成できる。なお、利用者Ｕ_nの属性に応じて音響信号Ｙ_nが表す声質を制御する第２実施形態の構成と、文字列Ｘ_nに応じて音響信号Ｙ_nが表す音声の音量を制御する第３実施形態の構成とを併合してもよい。

　また、以上の説明において文字列Ｘ_nの文字数に応じた音量の音声を表す音響信号Ｙ_nを生成する例を説明した。しかしながら、音響信号Ｙ_nの音量に反映される文字列Ｘ_nの条件は文字数に限定されない。例えば、文字列Ｘ_nが特定の語句である場合に音響信号Ｙ_nの音量を大きい数値に設定する構成を採用してもよい。すなわち、文字列Ｘ_nに応じて音響信号Ｙ_nの音量（音響特性の一例）が変化する構成であればよい。

Ｄ：第４実施形態
　例えば音楽イベントの終盤では、例えば「アンコール（encore）」等の歓声が所定の周期で反復的に発音される。以上の事情を考慮すると、各端末装置１０_nの利用者Ｕ_nは、「アンコール」のような文字列Ｘ_nを所定の周期で反復的に指示することが想定される。第４実施形態は、以上のように反復的に指示される文字列Ｘ_nに対応する音を施設２００内で再生する場合に利用される形態である。

　図６は、第４実施形態における再生制御処理Ｓbの具体的な手順を例示するフローチャートである。再生制御処理Ｓbにおいて各再生要求Ｒ_nに対応する音響信号Ｙ_nを生成すると（処理Ｓb2）、制御システム２０の制御装置２１は、設定処理Ｓc1と調整処理Ｓc2とを実行する。

　図７は、設定処理Ｓc1および調整処理Ｓc2の説明図である。設定処理Ｓc1は、時間軸上に基準時点Ｑを設定する処理である。制御装置２１は、時間軸上に例えば所定の間隔で複数の基準時点Ｑを設定する。なお、実演者Ｐが実演する楽曲の拍点を基準時点Ｑとしてもよい。

　また、設定処理Ｓc1において、制御装置２１は、基準時点Ｑ毎に特定期間Ｄを設定する。各基準時点Ｑに対応する特定期間Ｄは、その基準時点Ｑを含む所定長の期間である。具体的には、基準時点Ｑを始点とする期間が特定期間Ｄとして例示される。ただし、基準時点Ｑを中点または終点とする期間を特定期間Ｄとしてもよい。

　調整処理Ｓc2は、複数の音響信号Ｙ_nの時間軸上の位置を調整する処理である。調整処理Ｓc2において、制御装置２１は、複数の音響信号Ｙ_nの始点を特定期間Ｄ内に調整する。具体的には、制御装置２１は、時間軸上の所定の期間（以下「単位期間」という）Ｃ内に受信した複数の再生要求Ｒ_nにそれぞれ対応する複数の音響信号Ｙ_nの各々の始点を、その単位期間Ｃの直後の特定期間Ｄ内に調整する。単位期間Ｃは、相前後する２個の特定期間Ｄの始点間の期間である。例えば、図７に例示の通り、１個の単位期間Ｃ内に再生要求Ｒ_n1と再生要求Ｒ_n2とが受信された場合、制御装置２１は、再生要求Ｒ_n1に対応する音響信号Ｙ_n1の始点と再生要求Ｒ_n2に対応する音響信号Ｙ_n2の始点とを、その単位期間Ｃの直後の特定期間Ｄ内に調整する。

　また、調整処理Ｓc2において、制御装置２１は、複数の音響信号Ｙ_nの始点を特定期間Ｄ内に分散させる。すなわち、制御装置２１は、複数の音響信号Ｙ_nの始点が特定期間Ｄ内の１個の時点に一致しないように各音響信号Ｙ_nの始点を分散させる。例えば、図７の例示の通り、音響信号Ｙ_n1の始点と音響信号Ｙ_n2の始点とが特定期間Ｄ内に分散される。

　具体的には、特定期間Ｄ内の基準時点Ｑを最大度数として特定期間Ｄの終点にかけて度数が減少する度数分布に音響信号Ｙ_nの始点の個数が従うように、複数の音響信号Ｙ_nの各々の始点が特定期間Ｄ内において分散される。すなわち、複数の音響信号Ｙ_nの始点は、基準時点Ｑに集中しつつ特定期間Ｄ内に適度に分散される。

　制御装置２１は、以上に例示した調整処理Ｓc2による調整後の複数の音響信号Ｙ_nを混合することで音響信号Ｚを生成する。制御装置２１は、第１実施形態と同様に、音響信号Ｚが表す音を再生システム４０に再生させる（処理Ｓb4）。以上の説明から理解される通り、相異なる利用者Ｕ_nが指示した文字列Ｘ_nに対応する音声の再生が、特定期間Ｄ内に集中して開始される。複数の特定期間Ｄの各々について以上の処理が順次に実行されるから、複数の文字列Ｘ_nに対応する音が特定の周期で発音される状況が施設２００内に再現される。

　第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態においては、複数の音響信号Ｙ_nの各々の始点が時間軸上の特定期間Ｄ内に集約されるから、相異なる利用者Ｕ_nからの指示に応じた複数の音が一斉に発音される状況を再生システム４０により再現できる。

　なお、複数の音響信号Ｙ_nの始点が特定期間Ｄ内において一致した場合、利用者Ｕ_nの総数を実演者Ｐが把握し難い可能性がある。第４実施形態においては、複数の音響信号Ｙ_nの始点が特定期間Ｄ内において分散されるから、複数の音響信号Ｙ_nの始点が一致する場合と比較して、利用者Ｕ_nの総数を実演者Ｐが把握し易いという利点もある。

Ｅ：第５実施形態
　第１実施形態から第４実施形態においては、施設２００内に聴衆が存在しない場合を想定した。第５実施形態においては、施設２００内に聴衆が存在する場合を想定する。収録システム３０の収音装置は、実演者Ｐによる実演で発音される音（例えば歌唱音または楽器音等）と、施設２００内の観衆により発音される音（例えば歓声または拍手音等）とを含む音を収音する。

　図８は、第５実施形態における設定処理Ｓc1の説明図である。設定処理Ｓc1において、制御システム２０の制御装置２１は、施設２００内に存在する音の音量Ｖを特定する。具体的には、制御装置２１は、収録システム３０の収音装置が収音する音を解析することで音量Ｖを算定する。

　設定処理Ｓc1において、制御装置２１は、音量Ｖに応じて特定期間Ｄを設定する。具体的には、制御装置２１は、音量Ｖが所定の閾値Ｖthを超過する時点を基準時点Ｑとして設定し、その基準時点Ｑを含む特定期間Ｄを設定する。例えば、施設２００内の聴衆が実演者Ｐによる実演に並行して手拍子する場面を想定すると、手拍子の拍点が基準時点Ｑとして設定される。聴衆が周期的に手拍子する状況では、時間軸上に複数の基準時点Ｑが周期的に設定される。設定処理Ｓc1により設定された基準時点Ｑおよび特定期間Ｄを利用した調整処理Ｓc2の内容は第４実施形態と同様である。

　第５実施形態においても第１実施形態および第４実施形態と同様の効果が実現される。また、第５実施形態においては、施設２００内の音量Ｖに応じて特定期間Ｄが設定されるから、再生システム４０による音の再生を、施設２００内の音量Ｖの変化（例えば施設２００内の聴衆の盛上がり）に連動させることが可能である。すなわち、施設２００内の観衆による歓声と、施設２００外の各利用者Ｕ_nによる指示に応じた音とを、施設２００内に一体的に発音することが可能である。

Ｆ：変形例
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各実施形態においては、各音響信号Ｙ_nが表す音声の音高、音量および声質を相違させた。しかしながら、音響信号Ｙ_n毎に相違させる音響特性は以上の例示に限定されない。例えば、音響特性は、周波数特性、残響特性（例えば残響時間）、音高の時間変化（ピッチベンド）、音像の定位位置、発音の継続長等であってもよい。任意の音響特性を音響信号Ｙ_n毎に設定してよい。２種類以上の音響特性を音響信号Ｙ_n毎に相違させてもよい。

　なお、第２実施形態においては利用者Ｕ_nの属性に応じて音響信号Ｙ_nの声質を制御したが、音響信号Ｙ_nに関する声質以外の音響特性を利用者Ｕ_nの属性に応じて制御してもよい。また、第３実施形態においては文字列Ｘ_nに応じて音響信号Ｙ_nの音量を制御したが、音響信号Ｙ_nに関する音量以外の音響特性を文字列Ｘ_nに応じて制御してもよい。

（２）前述の各実施形態においては、文字列Ｘ_nに応じた音響信号Ｙ_nを音声合成処理により生成したが、音響信号Ｙ_nを取得する方法は以上の例示に限定されない。例えば、事前に収録または合成された音響信号Ｙ_nを記憶装置２２から読出してもよい。例えば、利用者Ｕ_nから指示されることが想定される複数の文字列の各々について、各文字列に対応する音声を表す音響信号が記憶装置２２に記憶される。制御装置２１は、記憶装置２２に記憶された複数の音響信号のうち、利用者Ｕ_nによる指示に応じた文字列Ｘ_nに対応する音響信号を音響信号Ｙ_nとして記憶装置２２から読出す。以上の説明から理解される通り、音響信号Ｙ_nを取得する処理は、音声合成処理により音響信号Ｙ_nを生成する処理のほか、事前に収録または合成された音響信号Ｙ_nを記憶装置２２から読出す処理も包含される。

　なお、音声合成処理により音響信号Ｙ_nを生成する処理と、事前に用意された音響信号Ｙ_nを読出す処理とを併用してもよい。例えば、文字列Ｘ_nに対応する音響信号Ｙ_nが記憶装置２２に記憶されている場合、制御装置２１は、その音響信号Ｙ_nを記憶装置２２から読出す。他方、文字列Ｘ_nに対応する音響信号Ｙ_nが記憶装置２２に記憶されていない場合、制御装置２１は、その文字列Ｘ_nを適用した音声合成処理により音響信号Ｙ_nを生成する。

（３）前述の各実施形態においては、動画データＭが表す動画の再生と利用者Ｕ_nからの指示の受付とを端末装置１０_nが実行したが、実施形態はこのような例に限定されない。利用者Ｕ_nからの指示を受付ける端末装置１０_nとは別個の再生装置に動画データＭの動画を再生させてもよい。動画を再生する再生装置は、例えばスマートフォンまたはタブレット端末等の情報端末でもよく、テレビジョン受像機等の映像機器でもよい。

（４）前述の各実施形態においては、利用者Ｕ_nが文字列Ｘ_nを指示したが、利用者Ｕ_nによる文字列Ｘ_nの入力は必須ではない。例えば、相異なる文字列に対応する複数の選択肢の何れかを、利用者Ｕ_nが操作装置１５により選択する。端末装置１０_nは、利用者Ｕ_nが選択した選択肢の識別情報を含む再生要求Ｒ_nを制御システム２０に送信する。制御システム２０の制御装置２１は、相異なる識別情報について記憶装置２２に記憶された複数の音響信号のうち、再生要求Ｒ_n内の識別情報に対応する音響信号を音響信号Ｙ_nとして記憶装置２２から読出す。以上の構成においても、各音響信号Ｙ_nの音響特性を相違させることで、第１実施形態と同様の効果が実現される。

（５）前述の各実施形態においては、音響信号Ｙ_nが音声（発話音）を表す構成を例示したが、音響信号Ｙ_nが表す音は音声に限定されない。例えば、種々の効果音を表す音響信号Ｙ_nを制御装置２１が取得してもよい。音響信号Ｙ_nが表す効果音の具体例は、拍手または指笛により発音される音、または、太鼓等の楽器の演奏により発音される楽音を含んでもよい。

（６）再生要求Ｒ_nの通信における通信遅延が大きいほど、利用者Ｕ_nがより遠隔に位置するという傾向がある。以上の傾向を考慮すると、特定期間Ｄ内における各音響信号Ｙ_nの始点の位置を通信遅延に応じて分散させてもよい。例えば、通信遅延が大きいほど基準時点Ｑに対する時間差がより大きくなるように、各音響信号Ｙ_nの始点が特定期間Ｄ内において調整される。以上の構成によれば、制御システム２０からの距離が同等である利用者Ｕ_nについて音響信号Ｙ_nの始点が近接する。

（７）各利用者Ｕ_nは、基本的には、相前後する楽曲演奏の間隔内において文字列Ｘ_nを入力することが想定される。しかし、例えば通信遅延等の事情により、楽曲演奏の間隔内に利用者Ｕ_nが指示した文字列Ｘ_nを含む再生要求Ｒ_nが、直後の楽曲の開始後に制御システム２０に到達する場合がある。以上の事情を想定すると、例えば音楽イベントにおける楽曲の演奏中には、再生システム４０による音の再生を停止する構成も想定される。

　例えば、制御システム２０の制御装置２１は、施設２００内で楽曲が演奏されているか否かを、収録システム３０の収音装置が収音する音を解析することで判定する。なお、音楽イベントの運営者が楽曲が演奏中であるか否かを制御システム２０に指示してもよい。楽曲が演奏されていないと判定した場合、制御装置２１は、前述の各実施形態と同様に、音響信号Ｚを再生システム４０に供給することで施設２００内に音を再生させる。他方、楽曲が演奏されていると判定した場合、制御装置２１は、再生システム４０に対する音響信号Ｚの供給を停止する。楽曲の演奏中に、音響信号Ｙ_nの生成（処理Ｓb2）および混合（処理Ｓb3）を停止してもよい。楽曲が演奏されている場合に、演奏されていない場合と比較して音響信号Ｚの音量を低下させてから、音響信号Ｚを再生システム４０に供給してもよい。

（８）前述の各実施形態においては音楽イベントを例示したが、前述の各実施形態が適用される場面は音楽イベントに限定されない。例えば、複数の競技者（チーム）がスポーツで競技する競技イベント、俳優が出演する演劇イベント、ダンサーが実演するダンスイベント、講演者が講演する講演イベント、学校や学習塾等の各種の教育機関が生徒に授業を提供する教育イベント等、特定の目的で実施される各種のイベントに、前述の各実施形態を適用してもよい。

（９）以上に例示した制御システム２０の機能は、前述の通り、制御装置２１を構成する単数または複数のプロセッサと、記憶装置２２に記憶されたプログラムとの協働により実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。

Ｇ：付記
　以上に例示した実施形態から、例えば以下の構成が把握される。

　本開示のひとつの態様（態様１）に係る再生制御方法は、第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信し、前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得し、前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成し、前記第３の音響信号が表す音を再生システムに再生させることを含む。以上の構成においては、第１利用者からの指示に応じた音と第２利用者からの指示に応じた音との混合音が再生システムから再生される。第１音響信号が表す音と第２音響信号が表す音とは音響特性が互いに相違するから、再生システムによる再生音の受聴者（例えば各種のイベントの実演者）が、利用者の状況（例えば総数または反応）を把握し易いという利点がある。

　態様１の具体例（態様２）において、前記音響特性は、音高、音量、音質、周波数特性、残響特性、音高の時間変化、音像の定位位置、および音の継続長のうちの１以上を含む。

　態様１または態様２の具体例（態様３）において、前記第１再生要求は、前記第１利用者が指示した第１文字列を含み、前記第２再生要求は、前記第２利用者が指示した第２文字列を含み、前記取得においては、前記第１文字列に対応する音声を表す前記第１音響信号を、前記第１文字列を適用した音声合成処理により生成し、前記第２文字列に対応する音声を表す前記第２音響信号を、前記第２文字列を適用した音声合成処理により生成する。以上の態様によれば、利用者が指示した任意の文字列に対応する多様な音響信号を生成できる。

　態様３の具体例（態様４）において、前記音声合成処理においては、前記第１利用者の属性に応じた音響特性を表す前記第１音響信号を生成し、前記第２利用者の属性に応じた音響特性を表す前記第２音響信号を生成する。以上の態様によれば、利用者の属性に応じた多様な音響特性の音響信号を生成できる。

　態様３または態様４の具体例（態様５）において、前記音声合成処理においては、前記第１文字列に応じた音響特性を表す前記第１音響信号を生成し、前記第２文字列に応じた音響特性を表す前記第２音響信号を生成する。以上の態様によれば、利用者が指示した文字列に応じた多様な音響特性の音響信号を生成できる。

　態様１から態様５の何れかの具体例（態様６）において、前記混合においては、前記第１音響信号の始点と前記第２音響信号の始点とを時間軸上の特定期間内に調整し、前記始点が調整された第１音響信号と前記始点が調整された第２音響信号とを混合する。以上の態様によれば、第１音響信号および第２音響信号の各々の始点が時間軸上の特定期間内に集約される。したがって、複数の音が一斉に発音される状況を再生システムにより再現できる。

　態様６の具体例（態様７）において、前記調整においては、前記第１音響信号の始点と前記第２音響信号の始点とを前記特定期間内に分散させる。以上の態様によれば、第１音響信号の始点と第２音響信号の始点とが特定期間内に分散されるから、第１音響信号の始点と第２音響信号の始点とが時間軸上で一致する場合と比較して、利用者の総数（規模）を受聴者が把握し易い音を再生できる。

　態様６または態様７の具体例（態様８）において、前記特定期間は、前記再生システムが設置される音響空間内において収音される音の音量に応じて設定される。以上の態様によれば、音響空間内の音量に応じて特定期間が設定されるから、再生システムによる混合音の再生を、音響空間内の音量の変化（例えば音響空間内の聴衆の盛上がり）に連動せることが可能である。

　なお、本開示は、前述の各態様（態様１から態様８）に係る再生制御方法を実現する制御システム、または、再生制御方法をコンピュータシステムに実行させるプログラム、としても実現される。

１００：通信システム
２００：施設、３００…通信網
１０_n（１０_1～１０_N）：端末装置
１１：制御装置
１２：記憶装置
１３：通信装置
１４：再生装置
１５：操作装置
２０：制御システム
２０a：配信制御部
２０b：再生制御部
２１：制御装置
２２：記憶装置
２３：通信装置
３０：収録システム
４０：再生システム
Ｕ_n（Ｕ_1～Ｕ_N）…利用者
Ｐ…実演者
Ｒ_n（Ｒ_1～Ｒ_N）…再生要求
Ｑ…基準時点
Ｄ…特定期間

Claims

　第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、
　第２利用者による指示に応じた第２再生要求を第２端末装置から受信し、
　前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得し、
　前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成し、
　前記第３の音響信号が表す音を再生システムに再生させる
　ことを含み、コンピュータシステムにより実現される再生制御方法。
　前記音響特性は、音高、音量、音質、周波数特性、残響特性、音高の時間変化、音像の定位位置、および音の継続長のうちの１以上を含む
　請求項１の再生制御方法。
　前記第１再生要求は、前記第１利用者が指示した第１文字列を含み、
　前記第２再生要求は、前記第２利用者が指示した第２文字列を含み、
　前記取得においては、
　前記第１文字列に対応する音声を表す前記第１音響信号を、前記第１文字列を適用した音声合成処理により生成し、
　前記第２文字列に対応する音声を表す前記第２音響信号を、前記第２文字列を適用した音声合成処理により生成する
　請求項１または請求項２の再生制御方法。
　前記音声合成処理においては、
　前記第１利用者の属性に応じた音響特性を表す前記第１音響信号を生成し、
　前記第２利用者の属性に応じた音響特性を表す前記第２音響信号を生成する
　請求項３の再生制御方法。
　前記音声合成処理においては、
　前記第１文字列に応じた音響特性を表す前記第１音響信号を生成し、
　前記第２文字列に応じた音響特性を表す前記第２音響信号を生成する
　請求項３または請求項４の再生制御方法。
　前記混合においては、
　前記第１音響信号の始点と前記第２音響信号の始点とを時間軸上の特定期間内に調整し、
　前記始点が調整された第１音響信号と前記始点が調整された第２音響信号とを混合する
　請求項１から請求項５の何れか一項に記載の再生制御方法。
　前記調整においては、
　前記第１音響信号の始点と前記第２音響信号の始点とを前記特定期間内に分散させる
　請求項６の再生制御方法。
　前記特定期間は、前記再生システムが設置される音響空間内において収音される音の音量に応じて設定される
　請求項６または請求項７の再生制御方法。
　第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信する受信部と、
　前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得する取得部と、
　前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成する混合部と、
　前記第３の音響信号が表す音を再生システムに再生させる再生部と
　を具備する制御システム。
　第１利用者による指示に応じた第１再生要求を第１端末装置から受信し、第２利用者による指示に応じた第２再生要求を第２端末装置から受信する受信部、
　前記第１再生要求に応じた音を表す第１音響信号と、前記第１音響信号が表す音とは音響特性が異なる音であって前記第２再生要求に応じた音を表す第２音響信号とを取得する取得部、
　前記第１音響信号と前記第２音響信号とを混合することにより第３の音響信号を生成する混合部、および、
　前記第３の音響信号が表す音を再生システムに再生させる再生部
　としてコンピュータを機能させるプログラム。