WO2024047814A1

WO2024047814A1 - 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム

Info

Publication number: WO2024047814A1
Application number: PCT/JP2022/032861
Authority: WO
Inventors: 隆行黒住; 真二深津; 英一郎松本; 俊彦江浦; 馨亮長谷川
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-07

Abstract

一実施形態では、再生音量制御方法は、音量尤度情報に基づいて音源の音量状態を変更する音量状態変更過程と、前記音量状態を記憶する音量状態記憶過程と、前記音量状態に基づいて前記音源の音量を変更する音量変更過程と、前記音源を前記音量で再生する音源再生過程と、を備える。

Description

再生音量制御方法、再生音量制御装置及び再生音量制御プログラム

　この発明の一態様は、再生音量制御方法、再生音量制御装置及び再生音量制御プログラムに関する。

　近年、ある地点で撮影・収録された映像・音声をデジタル化してＩＰ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）ネットワーク等の通信回線を介して遠隔地にリアルタイム伝送し、遠隔地で映像・音声を再生する映像・音声再生装置が用いられるようになってきた。例えば、音楽ライブの会場で行われている音楽ライブの映像・音声や、競技会場で行われているスポーツ競技試合の映像・音声を遠隔地にリアルタイム伝送するオンラインライブやパブリックビューイング等が盛んに行われている。このような映像・音声の伝送は１対１の一方向伝送にとどまらない。音楽ライブが行われている会場（以下、イベント会場とする）から映像・音声を複数の遠隔地に伝送し、それら複数の遠隔地でもそれぞれ観客がライブを楽しんでいる映像や歓声等の音声を撮影・収録し、それらの映像・音声をイベント会場や他の遠隔地に伝送し、各拠点において大型映像表示装置やスピーカから出力する、というような双方向伝送も行なわれている。

　このような双方向での映像・音声の伝送においては、音楽ライブ等の映像を遠隔地で楽しんでいる顧客が、イベント会場へ接続し、声援を送りたい場合、音をそのままイベント会場内で流すことは難しい。なぜなら、遠隔地の視聴環境では、家庭でのノイズがあったり、音質が不明であったりすることが多いため、視聴環境においてマイクで取得した音をそのままイベント会場で流すと、イベント会場内での観客の視聴品質が損なわれる。

　そこで、クロスモーダル検索を使用して、映像から音を選択し、品質の良い音を再生することが考えられる（非特許文献１及び非特許文献２）。非特許文献１及び非特許文献２には、映像と関連する音特徴に基づいて、音を選択する方法が記載されている。

弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索、安田昌弘、大石康智、小泉悠馬、原田登、日本音響学会講演論文集、２０２０年９月 Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, and Noboru Harada. Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. Proc. Interspeech 2020, pp. 1446-1450, 2020.

　しかしながら，非特許文献１及び非特許文献２の方法は、映像と関連する音特徴に基づいて、音を選択する方法であり、音量を制御することは困難である。

　この発明は、上記事情に着目してなされたもので、その目的とするところは、映像に関連する音を、音量を制御して再生する技術を提供することにある。

　この発明の一実施形態では、再生音量制御方法は、音量尤度情報に基づいて音源の音量状態を変更する音量状態変更過程と、前記音量状態を記憶する音量状態記憶過程と、前記音量状態に基づいて前記音源の音量を変更する音量変更過程と、前記音源を前記音量で再生する音源再生過程と、を備える。

　この発明の一態様によれば、映像に関連する音を、音量を制御して再生することができる。

図１は、第１の実施形態に係る再生音量制御システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。図２は、第１の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図３は、第１の実施形態に係る遠隔地での観客の映像の一例を示す図である。図４は、第１の実施形態に係るイベント会場での映像の一例を示す図である。図５は、第１の実施形態に係る音量変化の一例を示す図である。図６は、第１の実施形態に係るサーバの再生音量制御手順と処理内容の一例を示すフローチャートである。図７は、第１の実施形態に係るサーバの再生音量制御手順と処理内容の一例を示すフローチャートである。図８は、第１の実施形態に係るサーバの再生音量制御手順と処理内容の具体例を示すフローチャートである。図９は、第１の実施形態の変形例に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図１０は、第１の実施形態の変形例に係るサーバの再生音量制御手順と処理内容の一例を示すフローチャートである。図１１は、第１の実施形態の変形例に係るサーバの再生音量制御手順と処理内容の別の例を示すフローチャートである。図１２は、第２の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図１３は、第２の実施形態に係るサーバの尤度決定手順と処理内容の一例を示すフローチャートである。図１４は、第３の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図１５は、第３の実施形態に係るサーバの尤度決定手順と処理内容の一例を示すフローチャートである。図１６は、第４の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図１７は、第４の実施形態に係るサーバの尤度決定手順と処理内容の一例を示すフローチャートである。図１８は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。

　以下、図面を参照してこの発明に係るいくつかの実施形態を説明する。　
　音楽ライブ会場等のイベント会場において、遠隔地でライブを視聴する観客（以下、リモート観客という）の映像の特徴を利用して歓声音を選択し、イベント会場において再生することを想定する。

　歓声音は、図３に示すようなリモート観客の映像の特徴を利用して再生するものとする。図３は、複数のリモート観客の映像を示す。図３は、複数のリモート観客がペンライトを使用して盛り上がっている状態を示す。例えば、図３に示すような、５×５のマトリックス状の入力映像の特徴を利用して歓声音を選択する。なお、図４に示すようなイベント会場の群衆の映像の特徴を利用して歓声音を選択してもよい。図４は、イベント会場の群衆がペンライトを使用して盛り上がっている状態を示す。この場合、イベント会場の群衆の映像の一部を切り出して入力映像として使用してもよいし、全体を入力映像として使用してもよい。

　図３及び図４に示すように、観客は、ペンライトのような特徴的なアイテムを持ち、通常時と比べて盛り上がっている時にアイテムを使用して盛り上がりを表現することが想定される。

　［第１の実施形態］　
　第１の実施形態は、イベント会場において、リモート観客の歓声音を再生する実施形態である。

　（構成例）　
　図１は、第１の実施形態に係る再生音量制御システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。　
　再生音量制御システムＳは、サーバ１、音声出力装置１０１、映像出力装置１０２、複数の観客用端末２～２ｎを含む。サーバ１、音声出力装置１０１、映像出力装置１０２、複数の観客用端末２～２ｎは、ＩＰネットワークを介して互いに通信可能である。

　サーバ１は、データを収集し、収集したデータを処理する電子機器である。電子機器は、コンピュータを含む。

　音声出力装置１０１は、音声を再生して出力するスピーカを含む装置である。音声出力装置１０１は、例えば、イベント会場において音声を出力する装置である。

　映像出力装置１０２は、映像を再生して表示するディスプレイを含む装置である。例えば、ディスプレイは、液晶ディスプレイである。映像出力装置１０２は、例えば、イベント会場において映像を再生して表示する装置である。

　観客用端末２～２ｎのそれぞれは、複数のリモート観客のそれぞれが使用する端末である。観客用端末２～２ｎのそれぞれは、入力機能、表示機能及び通信機能を備える電子機器である。例えば、観客用端末２～２ｎのそれぞれは、タブレット端末、スマートフォン、又はＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）等であるが、これらに限定されない。観客用端末２は、端末の一例である。

　サーバ１の構成例について説明する。　
　サーバ１は、制御部１１、プログラム記憶部１２、データ記憶部１３、通信インタフェース１４及び入出力インタフェース１５を備える。サーバ１が備える各要素は、バスを介して、互いに接続されている。

　制御部１１は、サーバ１の中枢部分に相当する。制御部１１は、中央処理ユニット（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）等のプロセッサを備える。制御部１１は、不揮発性のメモリ領域としてＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）を備える。制御部１１は、揮発性のメモリ領域としてＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を備える。プロセッサは、ＲＯＭ、又はプログラム記憶部１２に記憶されているプログラムをＲＡＭに展開する。プロセッサがＲＡＭに展開されるプログラムを実行することで、制御部１１は、後述する各機能部を実現する。制御部１１は、コンピュータを構成する。

　プログラム記憶部１２は、記憶媒体としてＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部１２は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部１２は、制御部１１に実現される後述する各機能部による処理をサーバ１に実行させるプログラムを記憶する。プログラム記憶部１２は、ストレージの一例である。

　データ記憶部１３は、記憶媒体としてＨＤＤ、又はＳＳＤ等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部１３は、ストレージ、又は記憶部の一例である。

　通信インタフェース１４は、ＩＰネットワークにより定義される通信プロトコルを使用して、サーバ１を他の電子機器と通信可能に接続する種々のインタフェースを含む。

　入出力インタフェース１５は、サーバ１と音声出力装置１０１、映像出力装置１０２のそれぞれとの通信を可能にするインタフェースである。入出力インタフェース１５は、有線通信のインタフェースを備えていてもいいし、無線通信のインタフェースを備えていてもよい。

　なお、サーバ１のハードウェア構成は、上述の構成に限定されるものではない。サーバ１は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。

　図２は、第１の実施形態に係る再生音量制御システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。

　サーバ１は、音量状態変更部１１０、音量変更部１１１、音源再生部１１２、及び音量状態記憶部１３０を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。音量状態記憶部１３０は、データ記憶部１３によって実現される。

　音量状態変更部１１０は、取得された音量尤度情報に基づいて、音源の音量状態を変更する。音源は、観客用端末２～２ｎから取得される音源を含む。音源は、例えば、観客用端末２～２ｎから取得されるリモート観客の歓声音である。音源は、例えば、イベント会場において再生される再生音源である。再生音源は、単に音源ともいう。音量状態は、最小音量から最大音量までの何れかの状態を示す。最小音量は、例えば、無音状態を示す。音量状態は、例えば、「最小」、「半分」、「最大」等を含む。音量状態変更部１１０は、音量尤度状態を取得する。音量尤度状態は、音量尤度を数値で示すものである。音量尤度状態は、例えば、「０」又は「１」の値をとる。音量尤度状態は、初期値が「０」である。例えば、音量尤度状態が「０」である場合、音量は、最小音量である。音量の初期値は、最小音量である。音量状態変更部１１０は、音量尤度状態に基づいて、音量状態記憶部１３０に記憶された音量状態を更新する。音量状態を更新することは、音量状態を維持すること、音量状態を変更することを含む。音量状態を更新することは、音量状態に初期値を設定することを含む。初期値は、例えば、「最小」である。以下の説明において、「取得する」は、「入力する」、「読み込む」、「受信する」と読み替えてもよい。

　音量変更部１１１は、音量状態に基づいて音源の音量を変更する。音量変更部１１１は、予め再生する音源の音量を初期化する。音量変更部１１１は、例えば、音量として「０」を設定して音量を初期化する。音量変更部１１１は、音量状態記憶部１３０の音量状態に基づいて、音源の音量を変更する。音量は、「最小音量」、「半分の音量」、「最大音量」等を含む。最小音量は、「０」である。

　音源再生部１１２は、入力された音源を音量変更部１１１により変更された音量で再生する。音源再生部１１２は、再生音源を取得する。例えば、音源再生部１１２は、歓声音を再生音源として取得する。音源再生部１１２は、初期値の音量に基づいて、再生音源を再生する。

　音量状態記憶部１３０は、音量状態を記憶する。音量状態記憶部１３０は、音量状態変更部１１０により、音声状態が更新される毎に、音量状態を更新する。

　図５は、第１の実施形態に係る音量変化の一例を示す図である。　
　図５は、音量状態変更部１１０による音源の音量状態の変更と、音量状態の変更に基づく、音量変更部１１１による音源の音量の変更を概念的に表す図である。

　音源再生部１１２は、再生音源として観客用端末２～２ｎからリモート観客の歓声音を取得する場合を例に説明する。歓声音の音量状態が、初期値「０」に設定されていることを想定する。

　音量状態変更部１１０は、例えば、取得した音量尤度情報が「１」になった場合、音源の音量を半分の音量まで１秒かけて上げる。音源の音量が半分まで達したときに、音量尤度情報が「０」であれば、音量状態変更部１１０は、音源の音量を２秒かけて下げる。引き続き音量尤度状態が「１」のままである場合、音量状態変更部１１０は、音源の音量を１秒かけて最大音量まで上げる。音量尤度情報が「１」のまま持続している場合、音量状態変更部１１０は、最大音量を持続する。音量尤度情報が「０」になった場合、音量状態変更部１１０は、音源の音量を２秒かけて半分まで下げる。音量尤度情報が再び「１」になった場合、音量状態変更部１１０は、音源の音量を１秒かけて再び最大音量まで上げ、音量尤度情報が「０」のままである場合、音量状態変更部１１０は、音源の音量を２秒かけて最小音量まで下げる。

　例えば、ｔ１の時点で音量尤度情報が「１」を示す場合、音量状態変更部１１０は、歓声音の音量状態を初期値「０」から「半分」まで１秒かけて上げる。音量変更部１１１は、歓声音の音量を「最小音量」から「半分の音量」まで１秒かけて上げる。ｔ２の時点で音量尤度情報が「０」を示す場合、音量状態変更部１１０は、歓声音の音量状態を「半分」から「０」まで２秒かけて下げる。音量変更部１１１は、歓声音の音量を「半分の音量」から「最小音量」まで２秒かけて下げる。ｔ３の時点で音量尤度情報が「１」を示す場合、音量状態変更部１１０は、歓声音の音量状態を「０」から「半分」まで１秒かけて上げる。音量変更部１１１は、歓声音の音量を「最小音量」から「半分の音量」まで１秒かけて上げる。ｔ４の時点で音量尤度情報が「１」のままである場合、音量状態変更部１１０は、歓声音の音量状態を「半分」から「最大」まで１秒かけて上げる。音量変更部１１１は、歓声音の音量を「半分の音量」から「最大音量」まで１秒かけて上げる。ｔ５の時点で音量尤度情報が「１」のままである場合、音量状態変更部１１０は、歓声音の音量状態「最大」を維持する。音量変更部１１１は、歓声音の音量を「最大音量」で維持する。ｔ６の時点で音量尤度情報が「０」を示す場合、音量状態変更部１１０は、歓声音の音量状態を「最大」から「半分」まで２秒かけて下げる。音量変更部１１１は、歓声音の音量を「最大音量」から「半分の音量」まで２秒かけて下げる。ｔ７の時点で音量尤度情報が「０」のままである場合、音量状態変更部１１０は、歓声音の音量状態を「半分」から「０」まで２秒かけて下げる。音量変更部１１１は、歓声音の音量を「半分の音量」から「最小音量」まで２秒かけて下げる。ｔ８の時点で音量尤度情報が「０」のままである場合、音量状態変更部１１０は、歓声音の音量状態「０」を維持する。音量変更部１１１は、歓声音の音量を「最小音量」で維持する。

　なお、音量状態、及び音量の変更にかかる時間は、上述の時間に限られない。例えば、音量状態変更部１１０は、歓声音の音量状態を「最小」から「半分」まで２秒かけて上げてもよい。音量変更部１１１は、歓声音の音量を「最小音量」から「半分の音量」まで２秒かけて上げてもよい。音量変更部１１１は、音量状態変更部１１０による音量状態の変更に係る時間にかかわらず、音量の変更にかかる時間を設定してもよい。音量状態、及び音量の変更にかかる時間は、イベントの種類等により設定されてもよい。

　（動作例）　
　サーバ１による処理の手順について説明する。　
　なお、以下のサーバ１を主体とする説明では、サーバ１を制御部１１と読み替えてもよい。

　なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

　図６は、第１の実施形態に係るサーバ１の再生音量制御手順と処理内容の一例を示すフローチャートである。

　以下の処理では、音量尤度情報、及び再生音源を入力とし、再生音を出力とする。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。再生音は、例えば、音声出力装置１０１を介して再生される。

　音源再生部１１２は、再生音源を取得する（ステップＳ１）。ステップＳ１では、例えば、音源再生部１１２は、観客用端末２～２ｎからリモート観客の歓声音を取得する。

　音量状態変更部１１０は、再生音源の音量状態に初期値を設定する（ステップＳ２）。ステップＳ２では、例えば、音量状態変更部１１０は、歓声音の音量状態に「最小」を設定する。音量変更部１１１は、音量状態変更部１１０により音量状態が初期化されたことに基づいて、再生音源の音量を初期化する。例えば、音量変更部１１１は、歓声音の音量を「最小音量」に設定する。音量状態記憶部１３０は、音量状態変更部１１０により設定された音量状態を記憶する。音量状態記憶部１３０は、音量状態変更部１１０により音量状態が設定される毎に音量状態を更新する。

　音源再生部１１２は、初期値の音量に基づいて、再生音源を再生する（ステップＳ３）。ステップＳ３では、例えば、音源再生部１１２は、歓声音を最小音量で再生する。

　音量状態変更部１１０は、音量尤度情報が取得されたか否かを判定する（ステップＳ４）。音量尤度情報は、予め設定されていてもよく、管理者等により適宜入力されてもよい。音量尤度情報は、制御部１１により算出されてもよい。音量状態変更部１１０により、音量尤度情報が取得されたと判定された場合（ステップＳ４：ＹＥＳ）、処理は、ステップＳ４からステップＳ５へ遷移する。音量状態変更部１１０により、音量尤度情報が取得されていないと判定された場合（ステップＳ４：ＮＯ）、処理は、ステップＳ４を繰り返す。

　音量状態変更部１１０は、取得された音量尤度情報に基づいて、音源の音量状態を更新する（ステップＳ５）。ステップＳ５では、例えば、音量状態変更部１１０は、音量尤度情報に基づいて、歓声音の音量状態を更新する。音量状態変更部１１０は、音量尤度情報が「０」である場合、歓声音の音量状態を「最小」を維持する。音量状態変更部１１０は、音量尤度情報が「１」である場合、歓声音の音量状態を「最小」から「半分」に変更する。音量状態記憶部１３０は、音量状態変更部１１０により更新された音量状態を記憶する。音量状態記憶部１３０は、音量状態変更部１１０により音量状態が更新される毎に音量状態を更新する。

　音量状態変更部１１０は、音源の音量状態が変更されたか否かを判定する（ステップＳ６）。音量状態変更部１１０により、音量状態が変更されたと判定された場合（ステップＳ６：ＹＥＳ）、処理は、ステップＳ６からステップＳ７へ遷移する。音量状態変更部１１０により、音量状態が変更されていないと判定された場合（ステップＳ６：ＮＯ）、処理は、ステップＳ６からステップＳ４へ遷移する。

　音量変更部１１１は、音量状態に基づいて音源の音量を変更する（ステップＳ７）。ステップＳ７では、例えば、音量変更部１１１は、音量状態記憶部１３０から歓声音の音量状態を取得する。音量変更部１１１は、取得された音量状態に基づいて歓声音の音量を変更する。例えば、歓声音の音量状態が「半分」である場合、音量変更部１１１は、歓声音の音量を「半分の音量」に変更する。この例では、音量変更部１１１は、歓声音の音量を「最小音量」から「半分の音量」に約１秒かけて変更する。

　音量状態変更部１１０は、全ての音源状態が処理されたか否かを判定する（ステップＳ８）。音量状態変更部１１０により、全ての音源状態が処理されたと判定された場合（ステップＳ８：ＹＥＳ）、処理は、終了する。音量状態変更部１１０により、全ての音源状態が処理されていないと判定された場合（ステップＳ８：ＮＯ）、処理は、ステップＳ６からステップＳ４へ遷移する。

　図５に示すｔ２の時点を例に説明する。ステップＳ４において、音量状態変更部１１０により音量尤度情報が取得され、音量尤度情報が「０」であるとする。音量状態変更部１１０は、ステップＳ５において、歓声音の音量状態を「最小」に変更する。音量変更部１１１は、音量状態に基づいて、歓声音の音量を「最小音量」に変更する。この例では、音量変更部１１１は、歓声音の音量を「半分の音量」から「最小音量」に約２秒かけて変更する。

　図５に示すｔ３の時点を例に説明する。ｔ３の時点において歓声音の音量は、「最小音量」であるとする。ステップＳ４において、音量状態変更部１１０により音量尤度情報が取得され、音量尤度情報が「１」であるとする。音量状態変更部１１０は、ステップＳ５において、歓声音の音量状態を「半分」に変更する。音量変更部１１１は、音量状態に基づいて、歓声音の音量を「半分の音量」に変更する。この例では、音量変更部１１１は、歓声音の音量を「最小音量」から「半分の音量」に約１秒かけて変更する。

　図７は、第１の実施形態に係るサーバ１の再生音量制御手順と処理内容の一例を示すフローチャートである。　
　以下では、図６のステップＳ３において再生音を再生し、音量尤度情報に基づいて、再生音の音量を変更する処理を説明する。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。

　音源再生部１１２は、再生音源を再生する（ステップＳ１１）。ステップＳ１１では、例えば、音源再生部１１２は、初期値の音量に基づいて、歓声音を再生する。

　音量変更部１１１は、再生音が終端に到着したか否かを判定する（ステップＳ１２）。音量変更部１１１により、再生音が終端に到着したと判定された場合（ステップＳ１２：ＹＥＳ）、処理は、終了する。音量変更部１１１により、再生音が終端に到着していないと判定された場合（ステップＳ１２：ＮＯ）、処理は、ステップＳ１２からステップＳ１３へ遷移する。

　音量状態変更部１１０は、音量尤度情報が「１」を示すか否かを判定する（ステップＳ１３）。音量状態変更部１１０により、音量尤度情報が「１」を示すと判定された場合（ステップＳ１３：ＹＥＳ）、処理は、ステップＳ１３からステップＳ１４へ遷移する。音量状態変更部１１０により、音量尤度情報が「１」を示さないと判定された場合（ステップＳ１３：ＮＯ）、処理は、ステップＳ１３からステップＳ１５へ遷移する。

　音量変更部１１１は、再生音源の音量を上げる（ステップＳ１４）。ステップＳ１４では、例えば、音量状態変更部１１０は、音量尤度情報「１」に基づいて、音声状態を変更する。音量状態変更部１１０は、音声状態を「最小」から「半分」に変更する。音量状態変更部１１０は、音量状態を音量状態記憶部１３０に保存する。音量変更部１１１は、音量状態記憶部１３０に保存された音量状態に基づいて、歓声音の音量を上げる。例えば、音量変更部１１１は、歓声音の音量を「最小音量」から「半分の音量」に上げる。

　音量変更部１１１は、再生音源の音量を下げる（ステップＳ１５）。ステップＳ１５では、例えば、音量状態変更部１１０は、音量尤度情報「０」に基づいて、音声状態を変更する。再生音源の音量状態が「半分」である場合について説明する。音量状態変更部１１０は、音声状態を「半分」から「最小」に変更する。音量状態変更部１１０は、音量状態を音量状態記憶部１３０に保存する。音量変更部１１１は、音量状態記憶部１３０に保存された音量状態に基づいて、歓声音の音量を下げる。例えば、音量変更部１１１は、歓声音の音量を「半分の音量」から「最小音量」に上げる。なお、再生音源の音量状態が「最小」である場合、音量状態変更部１１０は、音声状態を「最小」で維持し、音量変更部１１１は、歓声音の音量を「最小音量」で維持してもよい。

　図８は、第１の実施形態に係るサーバ１の再生音量制御手順と処理内容の具体例を示すフローチャートである　
　以下では、図６のステップＳ３において再生音を再生し、音量尤度情報に基づいて、再生音の音量を変更する処理を説明する。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。

　音源再生部１１２は、再生音源を再生する（ステップＳ１０１）。ステップＳ１０１では、例えば、ステップＳ１と同様に、音源再生部１１２は、初期値の音量に基づいて、歓声音を再生する。

　音量変更部１１１は、再生音が終端に到着したか否かを判定する（ステップＳ１０２）。音量変更部１１１により、再生音が終端に到着したと判定された場合（ステップＳ１０２：ＹＥＳ）、処理は、終了する。音量変更部１１１により、再生音が終端に到着していないと判定された場合（ステップＳ１０２：ＮＯ）、処理は、ステップＳ１０２からステップＳ１０３へ遷移する。

　音量状態変更部１１０は、音検索の結果、再生音が歓声音にヒットしたか否かを判定する（ステップＳ１０３）。音量状態変更部１１０により、再生音が歓声音にヒットしたと判定された場合（ステップＳ１０３：ＹＥＳ）、処理は、ステップＳ１０３からステップＳ１０４へ遷移する。音量状態変更部１１０により、再生音が歓声音にヒットしないと判定された場合（ステップＳ１０３：ＮＯ）、処理は、ステップＳ１０３からステップＳ１０５へ遷移する。

　音量変更部１１１は、再生音源の音量を上げる（ステップＳ１０４）。ステップＳ１０４では、例えば、音量状態変更部１１０は、音声状態を変更する。音量状態変更部１１０は、最大音量の半分の音量を上げた音声状態にする。音量状態変更部１１０は、音量状態を音量状態記憶部１３０に保存する。音量変更部１１１は、音量状態記憶部１３０に保存された音量状態に基づいて、歓声音の音量を上げる。例えば、音量変更部１１１は、１秒かけて歓声音の音量を最大音量の半分の音量を上げた音量に上げる。

　音量変更部１１１は、再生音源の音量を下げる（ステップＳ１０５）。ステップＳ１０５では、例えば、音量状態変更部１１０は、音声状態を変更する。音量状態変更部１１０は、最大音量の半分の音量を下げた音声状態にする。音量状態変更部１１０は、音量状態を音量状態記憶部１３０に保存する。音量変更部１１１は、音量状態記憶部１３０に保存された音量状態に基づいて、歓声音の音量を下げる。例えば、音量変更部１１１は、２秒かけて歓声音の音量を最大音量の半分の音量を下げた音量に下げる。

　［変形例］　
　図９は、第１の実施形態の変形例に係る再生音量制御システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。　
　以下の説明では、ライブの演出において、歓声音の音量を抑制したい場合を例に説明する。この例では、静かな演出にしたいとき等に、歓声音が大きくなることを避けるため、音量の制限を設ける。上述の音量決定のアルゴリズムにおいて、音量の下降を受け付けない音量の上昇のみの制御によりフェードインを強制する機能、音量の上昇を受け付けない音量の下降のみの制御によりフェードアウトを強制する機能を設ける。音量の上下動の抑制の要否を入力して制御できるようにすることで、実用上、予期せぬ音量にならないように制御することができる。

　変形例では、第１の実施形態と同様の構成については同一の符号を付し、その説明を省略する。変形例では、主として、第１の実施形態と異なる部分について説明する。

　サーバ１は、音量状態変更部１１０、音量変更部１１１、音源再生部１１２、音量上昇／下降制限部１１３及び音量状態記憶部１３０を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。音量状態記憶部１３０は、データ記憶部１３によって実現される。

　音量上昇／下降制限部１１３は、再生音源の音量の上下動を抑制するか否かを示す上下動抑制要否情報を取得する。上下動抑制要否情報は、フェードイン指示又はフェードアウト指示を含んでもよい。音量上昇／下降制限部１１３は、上下動抑制要否情報に基づいて、再生音源の音量の上下動を制御する。

　（動作例）
　以下では、図６のステップＳ３において再生音を再生し、音量尤度情報に基づいて、再生音の音量を変更する処理を説明する。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。

　図１０は、フェードイン制御を行う場合のサーバ１の再生音量制御手順と処理内容の一例を示すフローチャートである。音量上昇／下降制限部１１３は、音量の下降を受け付けず、音量の上昇のみの制御を行う。

　音源再生部１１２は、ステップＳ１１と同様に、再生音源を再生する（ステップＳ２１）。

　音量変更部１１１は、ステップＳ１２と同様に、再生音が終端に到着したか否かを判定する（ステップＳ２２）。音量変更部１１１により、再生音が終端に到着したと判定された場合（ステップＳ２２：ＹＥＳ）、処理は、終了する。音量変更部１１１により、再生音が終端に到着していないと判定された場合（ステップＳ２２：ＮＯ）、処理は、ステップＳ２２からステップＳ２３へ遷移する。

　音量状態変更部１１０は、ステップＳ１３と同様に、音量尤度情報が「１」を示すか否かを判定する（ステップＳ２３）。音量状態変更部１１０により、音量尤度情報が「１」を示すと判定された場合（ステップＳ２３：ＹＥＳ）、処理は、ステップＳ２３からステップＳ２４へ遷移する。音量状態変更部１１０により、音量尤度情報が「１」を示さないと判定された場合（ステップＳ２３：ＮＯ）、処理は、ステップＳ２３からステップＳ２１へ遷移する。

　音量変更部１１１は、ステップＳ１４と同様に、再生音源の音量を上げる（ステップＳ２４）。なお、再生音源の音量状態が「最大」である場合、音量状態変更部１１０は、音声状態を「最大」で維持し、音量変更部１１１は、歓声音の音量を「最大音量」で維持してもよい。

　図１１は、フェードアウト制御を行う場合のサーバ１の再生音量制御手順と処理内容の一例を示すフローチャートである。音量上昇／下降制限部１１３は、音量の上昇を受け付けず、音量の下降のみの制御を行う。

　音源再生部１１２は、ステップＳ１１と同様に、再生音源を再生する（ステップＳ３１）。

　音量変更部１１１は、ステップＳ１２と同様に、再生音が終端に到着したか否かを判定する（ステップＳ３２）。音量変更部１１１により、再生音が終端に到着したと判定された場合（ステップＳ３２：ＹＥＳ）、処理は、終了する。音量変更部１１１により、再生音が終端に到着していないと判定された場合（ステップＳ３２：ＮＯ）、処理は、ステップＳ３２からステップＳ３３へ遷移する。

　音量状態変更部１１０は、ステップＳ１３と同様に、音量尤度情報が「１」を示すか否かを判定する（ステップＳ３３）。音量状態変更部１１０により、音量尤度情報が「１」を示すと判定された場合（ステップＳ３３：ＹＥＳ）、処理は、ステップＳ３３からステップＳ３１へ遷移する。音量状態変更部１１０により、音量尤度情報が「１」を示さないと判定された場合（ステップＳ３３：ＮＯ）、処理は、ステップＳ３３からステップＳ３４へ遷移する。

　音量変更部１１１は、ステップＳ１５と同様に、再生音源の音量を下げる（ステップＳ３４）。なお、再生音源の音量状態が「最小」である場合、音量状態変更部１１０は、音声状態を「最小」で維持し、音量変更部１１１は、歓声音の音量を「最小音量」で維持してもよい。

　［第２の実施形態］　
　第２の実施形態は、予め尤度に紐づいた参照映像特徴を用意しておき、入力映像から抽出された映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する実施形態である。尤度は、盛り上がり尤度を含む。第２の実施形態では、サーバ１は、盛り上がり尤度を使用し、再生音量の制御を行う。第２の実施形態は、盛り上がり尤度の決定処理を除く他の処理は、第１の実施形態と同様であるため、説明を省略する。盛り上がり尤度は、音量尤度情報の一例である。

　（構成例）　
　第２の実施形態では、第１の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第２の実施形態では、主として、第１の実施形態と異なる部分について説明する。

　図１２は、第２の実施形態に係る再生音量制御システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。　
　サーバ１は、音量状態変更部１１０、音量変更部１１１、音源再生部１１２、入力映像特徴抽出部１１４、参照映像特徴蓄積部１１５、尤度計算部１１６、及び音量状態記憶部１３０を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。音量状態記憶部１３０は、データ記憶部１３によって実現される。

　入力映像特徴抽出部１１４は、入力映像から入力映像特徴を抽出する。入力映像は、例えば、図３に示すような、５×５のマトリックス状の映像を含む。入力映像は、例えば、複数のリモート観客の映像を含む。入力映像は、図４に示すようなイベント会場の群衆の映像を含んでもよい。入力映像特徴は、入力映像に見られる特徴である。入力映像特徴は、例えば、入力映像に含まれる人の動き、物、人の表情等を含む。入力映像が観客の映像である場合、入力映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含む。入力映像特徴は、ペンライト、タオル等の物を含んでもよい。入力映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。入力映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きは、盛り上がりを示す。

　参照映像特徴蓄積部１１５は、予め再生音源に紐づけられた映像から抽出した参照特徴を蓄積する。例えば、再生音源が歓声音である場合について説明する。参照映像特徴蓄積部１１５は、予め歓声音に紐づけられた参照映像から参照特徴を抽出する。参照映像は、例えば、観客の映像である。観客の映像は、盛り上がりのある観客の映像、盛り上がりのない観客の映像等を含む。再生音源がリモート観客の歓声音である場合、参照映像は、リモート観客の映像であってもよい。参照特徴は、参照映像に見られる特徴である。参照特徴は、参照映像特徴を含む。参照映像特徴は、例えば、参照映像に含まれる人の動き、物、人の表情等を含む。参照映像が観客の映像である場合、参照映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含む。参照映像特徴は、ペンライト、タオル等の物を含んでもよい。参照映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。参照映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きを示す参照映像特徴は、盛り上がりを示す。盛り上がりのある観客の映像の参照映像特徴は、例えば、ペンライトを振る動きである。盛り上がりのない観客の映像の参照映像特徴は、例えば、ペンライトを持っていないことである。

　参照映像特徴は、尤度と紐づけられている。尤度は、例えば、盛り上がりの程度を示す盛り上がり尤度を含む。盛り上がり尤度は、例えば、「０」、「１」等の数値である。例えば、盛り上がり尤度「０」は、盛り上がりがない状態を示す。盛り上がり尤度「１」は、盛り上がりがある状態を示す。例えば、盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「０」と紐づけられている。参照映像特徴蓄積部１１５は、参照特徴蓄積部の一例である。

　音量状態変更部１１０は、入力映像特徴と参照映像特徴とを照合する。音量状態変更部１１０は、後述する尤度計算部１１６により算出される盛り上がり尤度に基づいて、音源の音量状態を変更する。

　尤度計算部１１６は、入力映像特徴と参照映像特徴との照合の結果に基づいて、入力映像特徴と参照映像特徴との距離、又は類似度を尤度として算出する。尤度は、例えば、盛り上がり尤度を含む。尤度計算部１１６は、入力映像特徴と参照映像特徴との距離が近い場合、盛り上がり尤度を「１」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照映像特徴との距離が遠い場合、盛り上がり尤度を「０」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照映像特徴との距離を所定の閾値に基づいて近いか遠いかの判定をしてもよい。尤度計算部１１６は、入力映像特徴と参照映像特徴との類似度が高い場合、盛り上がり尤度を「１」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照映像特徴との類似度が低い場合、盛り上がり尤度を「０」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照映像特徴との類似度を所定の閾値に基づいて高いか低いかの判定をしてもよい。尤度計算部１１６は、公知の映像特徴に基づく照合方法を用いて、入力映像特徴と参照映像特徴との照合を行ってもよい。尤度計算部１１６は、入力映像特徴と参照映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する。尤度計算部１１６は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する盛り上がり尤度を出力する。

　（動作例）　
　図１３は、第２の実施形態に係るサーバ１の尤度決定手順と処理内容の一例を示すフローチャートである。

　以下の処理では、入力映像、参照映像特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末２～２ｎから取得されるリモート観客の映像であるとする。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。参照映像特徴として、盛り上がりのある観客の映像の参照映像特徴と、盛り上がりのない観客の映像の参照映像特徴が入力される。盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「０」と紐づけられている。例えば、盛り上がりのある観客の映像の参照映像特徴は、ペンライトを振る動きである。

　入力映像特徴抽出部１１４は、入力映像から入力映像特徴を抽出する（ステップＳ４１）。入力映像が、リモート観客がペンライトを振っている映像である場合について説明する。ステップＳ４１では、例えば、入力映像特徴抽出部１１４は、入力映像からペンライトを振っているという入力映像特徴を抽出する。

　音量状態変更部１１０は、参照映像特徴蓄積部１１５により蓄積された参照特徴を取得する（ステップＳ４２）。ステップＳ４２では、例えば、音量状態変更部１１０は、盛り上がりのない観客の映像の参照映像特徴と、盛り上がりのある観客の映像の参照映像特徴を取得する。音量状態変更部１１０は、入力映像特徴と参照映像特徴を照合する。

　尤度計算部１１６は、入力映像特徴と参照映像特徴との照合の結果に基づいて、盛り上がり尤度を決定する（ステップＳ４３）。ステップＳ４３では、例えば、尤度計算部１１６は、入力映像特徴と参照映像特徴との距離、又は類似度を盛り上がり尤度として算出する。

　制御部１１は、ステップＳ４１～Ｓ４３の処理を繰り返し、各時刻の盛り上がり尤度を決定する。

　［第３の実施形態］　
　第３の実施形態は、予め尤度に紐づいた参照音特徴を用意しておき、入力映像から抽出された映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する実施形態である。第３の実施形態では、サーバ１は、盛り上がり尤度を使用し、再生音量の制御を行う。第３の実施形態は、盛り上がり尤度の決定処理を除く他の処理は、第１の実施形態と同様であるため、説明を省略する。

　（構成例）　
　第３の実施形態では、第１の実施形態及び第２の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第３の実施形態では、主として、第１の実施形態及び第２の実施形態と異なる部分について説明する。

　図１４は、第３の実施形態に係る再生音量制御システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。　
　サーバ１は、音量状態変更部１１０、音量変更部１１１、音源再生部１１２、入力映像特徴抽出部１１４、参照音特徴蓄積部１１７、尤度計算部１１６、及び音量状態記憶部１３０を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。音量状態記憶部１３０は、データ記憶部１３によって実現される。

　参照音特徴蓄積部１１７は、予め再生音源に紐づけられた音から抽出した参照特徴を蓄積する。例えば、再生音源が歓声音である場合について説明する。参照音特徴蓄積部１１７は、予め歓声音に紐づけられた参照音から参照特徴を抽出する。参照音は、例えば、観客の音である。観客の音は、例えば、歓声音である。観客の音は、盛り上がりのある観客の音、盛り上がりのない観客の音等を含む。再生音源がリモート観客の歓声音である場合、参照音は、リモート観客の音であってもよい。参照特徴は、参照音に見られる特徴である。参照特徴は、参照音特徴を含む。参照音特徴は、例えば、参照音に含まれる人の歓声、話し声、周囲の音等を含む。参照音特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、大きな歓声を示す参照音特徴は、盛り上がりを示す。盛り上がりのある観客の音の参照音特徴は、例えば、大きな歓声である。盛り上がりのない観客の音の参照音特徴は、例えば、歓声音がないことである。なお、参照音特徴は、参照映像から抽出されてもよい。

　参照音特徴は、尤度と紐づけられている。尤度は、例えば、盛り上がり尤度を含む。例えば、盛り上がりのある観客の音の参照音特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、盛り上がり尤度「０」と紐づけられている。参照音特徴蓄積部１１７は、参照特徴蓄積部の一例である。

　音量状態変更部１１０は、入力映像特徴と参照音特徴とを照合する。音量状態変更部１１０は、後述する尤度計算部１１６により算出される盛り上がり尤度に基づいて、音源の音量状態を変更する。音量状態変更部１１０は、公知の映像特徴に基づく照合方法を用いて、入力映像特徴と参照音特徴との照合を行ってもよい。

　尤度計算部１１６は、入力映像特徴と参照音特徴との照合の結果に基づいて、入力映像特徴と参照音特徴との距離、又は類似度を尤度として算出する。尤度は、例えば、盛り上がり尤度を含む。尤度計算部１１６は、入力映像特徴と参照音特徴との距離が近い場合、盛り上がり尤度を「１」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照音特徴との距離が遠い場合、盛り上がり尤度を「０」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照音特徴との距離を所定の閾値に基づいて近いか遠いかの判定をしてもよい。尤度計算部１１６は、入力映像特徴と参照音特徴との類似度が高い場合、盛り上がり尤度を「１」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照音特徴との類似度が低い場合、盛り上がり尤度を「０」として算出してもよい。尤度計算部１１６は、入力映像特徴と参照音特徴との類似度を所定の閾値に基づいて高いか低いかの判定をしてもよい。尤度計算部１１６は、入力映像特徴と参照音特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する。尤度計算部１１６は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する盛り上がり尤度を出力する。

　（動作例）　
　図１５は、第３の実施形態に係るサーバ１の尤度決定手順と処理内容の一例を示すフローチャートである。

　以下の処理では、入力映像、参照映像特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末２～２ｎから取得されるリモート観客の映像であるとする。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。参照音特徴として、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴が入力される。盛り上がりのある観客の音の参照音特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、盛り上がり尤度「０」と紐づけられている。例えば、盛り上がりのある観客の映像の参照音特徴は、大きな歓声である。

　入力映像特徴抽出部１１４は、ステップＳ４１と同様に、入力映像から入力映像特徴を抽出する（ステップＳ５１）。

　音量状態変更部１１０は、参照映像特徴蓄積部１１５により蓄積された参照特徴を取得する（ステップＳ５２）。ステップＳ５２では、例えば、音量状態変更部１１０は、盛り上がりのない観客の音の参照音特徴と、盛り上がりのある観客の音の参照音特徴を取得する。音量状態変更部１１０は、入力映像特徴と参照音特徴を照合する。

　尤度計算部１１６は、入力映像特徴と参照音特徴との照合の結果に基づいて、盛り上がり尤度を決定する（ステップＳ５３）。ステップＳ５３では、例えば、尤度計算部１１６は、入力映像特徴と参照音特徴との距離、又は類似度を盛り上がり尤度として算出する。

　［第４の実施形態］　
　第４の実施形態は、予め尤度に紐づいた参照映像特徴及び参照音特徴を用意しておき、入力映像から抽出された映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する実施形態である。第４の実施形態では、映像からの検索と音からの検索の両方を行って冗長化を行う。冗長化の方法は、例えば、参照映像特徴と参照音特徴の各々の照合から得られた尤度の大きい方を採用するようなことが考えられる。第４の実施形態では、サーバ１は、盛り上がり尤度を使用し、再生音量の制御を行う。第４の実施形態は、盛り上がり尤度の決定処理を除く他の処理は、第１の実施形態と同様であるため、説明を省略する。

　（構成例）　
　第４の実施形態では、第１の実施形態から第３の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第２の実施形態では、主として、第１の実施形態から第３の実施形態と異なる部分について説明する。

　図１６は、第４の実施形態に係る再生音量制御システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。　
　サーバ１は、音量状態変更部１１０、音量変更部１１１、音源再生部１１２、入力映像特徴抽出部１１４、参照映像特徴蓄積部１１５、参照音特徴蓄積部１１７、尤度計算部１１６、及び音量状態記憶部１３０を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。音量状態記憶部１３０は、データ記憶部１３によって実現される。

　音量状態変更部１１０は、入力映像特徴と参照映像特徴とを照合する。音量状態変更部１１０は、入力映像特徴と参照音特徴とを照合する。音量状態変更部１１０は、後述する尤度計算部１１６により算出される盛り上がり尤度に基づいて、音源の音量状態を変更する。

　尤度計算部１１６は、入力映像特徴と参照映像特徴との照合の結果、及び入力映像特徴と参照音特徴との照合の結果に基づいて、入力映像特徴と参照特徴との距離、又は類似度を尤度として算出する。尤度は、例えば、盛り上がり尤度を含む。尤度計算部１１６は、入力映像特徴と参照映像特徴との照合の結果、及び入力映像特徴と参照音特徴との照合の結果から得られた盛り上がり尤度のうち大きい方を盛り上がり尤度として算出してもよい。尤度計算部１１６は、入力映像特徴と参照特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する。尤度計算部１１６は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する盛り上がり尤度を出力する。

　（動作例）　
　図１７は、第４の実施形態に係るサーバ１の尤度決定手順と処理内容の一例を示すフローチャートである。

　以下の処理では、入力映像、参照映像特徴、参照音特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末２～２ｎから取得されるリモート観客の映像であるとする。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。参照映像特徴として、盛り上がりのある観客の映像の参照映像特徴と、盛り上がりのない観客の映像の参照映像特徴が入力される。盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「０」と紐づけられている。例えば、盛り上がりのある観客の映像の参照映像特徴は、ペンライトを振る動きである。参照音特徴として、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴が入力される。盛り上がりのある観客の音の参照音特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、盛り上がり尤度「０」と紐づけられている。例えば、盛り上がりのある観客の映像の参照音特徴は、大きな歓声である。

　入力映像特徴抽出部１１４は、ステップＳ４１と同様に、入力映像から入力映像特徴を抽出する（ステップＳ６１）。

　音量状態変更部１１０は、参照映像特徴蓄積部１１５により蓄積された参照特徴を取得する（ステップＳ６２）。ステップＳ６２では、例えば、音量状態変更部１１０は、盛り上がりのない観客の映像の参照映像特徴と、盛り上がりのある観客の映像の参照映像特徴を取得する。音量状態変更部１１０は、盛り上がりのない観客の音の参照音特徴と、盛り上がりのある観客の音の参照音特徴を取得する。音量状態変更部１１０は、入力映像特徴と参照映像特徴を照合する。音量状態変更部１１０は、入力映像特徴と参照音特徴を照合する。

　尤度計算部１１６は、入力映像特徴と参照特徴との照合の結果に基づいて、盛り上がり尤度を決定する（ステップＳ６３）。ステップＳ６３では、例えば、尤度計算部１１６は、ステップＳ４２と同様に、入力映像特徴と参照映像特徴との距離、又は類似度を盛り上がり尤度として算出する。尤度計算部１１６は、ステップＳ５３と同様に、例入力映像特徴と参照音特徴との距離、又は類似度を盛り上がり尤度として算出する。尤度計算部１１６は、入力映像特徴と参照映像特徴との照合の結果に基づき算出された盛り上がり尤度と、入力映像特徴と参照音特徴との照合の結果に基づき算出された盛り上がり尤度のうち、大きい方を盛り上がり尤度として決定してもよい。

　制御部１１は、ステップＳ６１～Ｓ６３の処理を繰り返し、各時刻の盛り上がり尤度を決定する。

　イベント会場において群衆の映像を撮影する方法について説明する。　
　図１８は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。　
　図１８に示すように、イベント会場内に設置されたカメラにより会場内の群衆を撮影する。会場内のカメラにより例えば、図４に示すような群衆の映像が撮影される。例えば、会場内のカメラは、会場のステージ側に設置され、客席側を撮影するように設置される。会場内のカメラは、１つに限られず、複数個設置されてもよい。群衆の映像は、少なくとも１つのカメラにより撮影された映像から選択される映像であってもよい。

　（効果）
　上述の実施形態では、サーバ１は、音量尤度情報に基づいて音源の音量状態を変更し、音量状態を記憶し、音量状態に基づいて音源の音量を変更し、音源を変更した音量で再生することができる。そのため、サーバ１は、音量尤度情報に応じた音量で音源を再生することができる。これにより、サーバ１は、イベント会場等において、所望の演出に応じた音量で選択した音源を再生することができる。このように、サーバ１は、映像に関連する音を、音量を制御して再生することができる。

　上述の実施形態では、サーバ１は、入力映像から入力映像特徴を抽出し、予め音源に紐づけられた映像、又は音の少なくとも一方から抽出した参照音特徴又は参照映像特徴を含む参照特徴を蓄積することができる。また、サーバ１は、入力映像特徴と参照音特徴又は参照映像特徴の少なくとも一方とを照合することができる。さらに、サーバ１は、照合の結果に基づいて、距離、又は類似度を尤度として算出することができる。　
　そのため、サーバ１は、入力映像特徴と参照音特徴又は参照映像特徴の少なくとも一方を照合することにより得られる尤度に基づいて、音源の音量を変更し、変更した音量で音源を再生することができる。これにより、サーバ１は、入力映像と関連する参照特徴に紐づけられた尤度に基づいて、音源の音量を変更することができる。このように、サーバ１は、映像に関連する音を、映像の特徴に即した音量に制御して再生することができる。

　上述の実施形態では、サーバ１は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力することができる。そのため、サーバ１は、入力映像と最も関連する参照特徴に紐づけられた尤度に基づいて、音源の音量を変更することができる。このように、サーバ１は、映像に関連する音を、映像の特徴により即した音量に制御して再生することができる。

　なお、第２の実施形態、第３の実施形態、及び第４の実施形態では、尤度決定を尤度に紐づいた音または映像の参照特徴を使用し、入力映像特徴に最も近い参照特徴に対応する尤度としたが、入力映像特徴と参照特徴との距離や類似度を尤度としてもよい。

　［その他の実施形態］　
　再生音量制御装置は、上記の例で説明したように１つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。

　プログラムは、電子機器に記憶された状態で譲渡されてよいし、電子機器に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、ＣＤ－ＲＯＭ、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。

　以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　上述の実施形態は、電子機器だけでなく、電子機器が実行する方法に適用されてもよい。上述の実施形態は、電子機器が備える各部の処理をコンピュータに実行させることが可能なプログラムに適用されてもよい。

　１　サーバ
　２～２ｎ　観客用端末
　１１　制御部
　１２　プログラム記憶部
　１３　データ記憶部
　１４　通信インタフェース
　１５　入出力インタフェース
　１０１　音声出力装置
　１０２　映像出力装置
　１１０　音量状態変更部
　１１１　音量変更部
　１１２　音源再生部
　１１３　下降制限部
　１１４　入力映像特徴抽出部
　１１５　参照映像特徴蓄積部
　１１６　尤度計算部
　１１７　参照音特徴蓄積部
　１３０　音量状態記憶部
　Ｓ　再生音量制御システム

Claims

　音量尤度情報に基づいて音源の音量状態を変更する音量状態変更過程と、
　前記音量状態を記憶する音量状態記憶過程と、
　前記音量状態に基づいて前記音源の音量を変更する音量変更過程と、
　前記音源を前記音量で再生する音源再生過程と、
　を備える、再生音量制御方法。
　入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、
　予め前記音源に紐づけられた映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、
　をさらに備える、請求項１に記載の再生音量制御方法。
　前記参照特徴は、参照音特徴又は参照映像特徴を含み、
　前記音量状態変更過程は、前記入力映像特徴と前記参照音特徴又は前記参照映像特徴の少なくとも一方とを照合する、
　請求項２に記載の再生音量制御方法。
　前記照合の結果に基づいて、距離、又は類似度を尤度として算出する尤度計算過程をさらに備える、
　請求項３に記載の再生音量制御方法。
　前記尤度計算過程は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力する、
　請求項４に記載の再生音量制御方法。
　音量尤度情報に基づいて音源の音量状態を変更する音量状態変更部と、
　前記音量状態を記憶する音量状態記憶部と、
　前記音量状態に基づいて前記音源の音量を変更する音量変更部と、
　前記音源を前記音量で再生する音源再生部と、
　を備える、再生音量制御装置。
　コンピュータに、
　音量尤度情報に基づいて音源の音量状態を変更することと、
　前記音量状態を記憶することと、
　前記音量状態に基づいて前記音源の音量を変更することと、
　前記音源を前記音量で再生することと、
　を実行させるための再生音量制御プログラム。