WO2022018828A1

WO2022018828A1 - 応援支援方法、応援支援装置、およびプログラム

Info

Publication number: WO2022018828A1
Application number: PCT/JP2020/028303
Authority: WO
Inventors: 和則小林
Original assignee: 日本電信電話株式会社
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-01-27
Also published as: JPWO2022018828A1; JP7480846B2; US20230353800A1

Abstract

ユーザは文字列を入力することなく配信元に反応を伝え、かつ、イベントの当事者はユーザの反応を進行の妨げとならないように自然に感得する。応援支援装置（２）は、配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および／または映像信号からなる応援を配信元の空間で再生する。音声取得部（２２）は、音声素材記憶部（２４）から音声素材を取得する。映像取得部（２５）は、音声取得部（２２）が取得した音声素材に応じて映像素材記憶部（２７）から映像素材を取得する。音声再生部（２３）は、発した視聴者が多い音種別に対応する音声素材ほど強調して再生する。映像再生部（２６）は、映像取得部（２５）が取得した映像素材を再生する。

Description

応援支援方法、応援支援装置、およびプログラム

　この発明は、多数の拠点に配信されるイベント等の視聴者が遠隔から応援する技術に関する。

　近年、スポーツ等のイベントをインターネット等のネットワークを介して多数の拠点へ配信する利用形態が普及している（例えば、非特許文献１参照）。図１は、非特許文献１に開示された配信システムの概要を示す図である。この配信システムは、配信対象とするイベントを撮影した元映像に基づいて配信映像を生成し、インターネット上で配信する映像配信装置９を備える。ユーザ１０－ｎ（ｎ＝１，…，Ｎ、Ｎは１以上の整数）は、各自のユーザ端末８－ｎを用いて映像配信装置９から配信される映像を視聴する。ユーザ１０－ｎは、配信映像をリアルタイムに視聴しながら、ユーザ端末８－ｎの入力部８１から感想やコメント等を表す文字列を入力する。ユーザ端末８－ｎの送信部８２は、入力された文字列を映像配信装置９へ送信する。映像配信装置９の文字列受信部９１は、各ユーザ端末８－ｎから文字列を受信する。映像配信装置９の文字列追加部９２は、元映像に対して受信した文字列を追加することで、配信映像を生成する。生成された配信映像は、各ユーザ端末８－ｎへ配信される。このようにすることで、非特許文献１の配信システムは、各ユーザの反応をイベントの配信者や他のユーザへ伝えることができる。

株式会社ドワンゴ、"視聴しよう - ニコニコ生放送"、［online］、［令和2年6月26日検索］、インターネット<URL: https://site.live.nicovideo.jp/>

　しかしながら、非特許文献１に開示された配信システムでは、ユーザは感想やコメント等を文字列で入力しなければならず、煩雑である。また、例えば、スポーツのイベントの場合、プレーヤがユーザから送信される文字列を視認しながらプレーすることは困難である。

　この発明の目的は、上記のような技術的課題を鑑みて、ユーザは文字列を入力することなく配信元に反応を伝えることができ、かつ、イベントの当事者はユーザの反応を進行の妨げとならないように自然に感得できる技術を実現することである。

　上記の課題を解決するために、本発明の一態様の応援支援方法は、配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および／または映像信号からなる応援を配信元の空間で再生する応援支援方法であって、応援を取得する取得ステップと、取得された応援を再生する再生ステップと、を有し、取得された応援は、複数の音種別のうち、発した視聴者が多い音種別に対応する応援ほど強調され、発した視聴者が少ない音種別に対応する応援ほど強調されず再生される。

　この発明によれば、ユーザが発した音の種別に対応する音声および／または映像からなる応援を、その種別の音を発したユーザの数に基づいて強調して配信元で再生するため、ユーザは文字列を入力することなく配信元に反応を伝えることができ、かつ、イベントの当事者はユーザの反応を進行の妨げとならないように自然に感得できる。

図１は従来技術を説明するための図である。図２は応援支援システムの機能構成を例示する図である。図３はユーザ端末の機能構成を例示する図である。図４は応援支援装置の機能構成を例示する図である。図５は応援支援方法の処理手続きを例示する図である。図６は集計部の機能構成を例示する図である。図７は音声取得部および音声素材記憶部の機能構成を例示する図である。図８は映像取得部および映像素材記憶部の機能構成を例示する図である。図９はメータ表示を説明するための図である。図１０はコンピュータの機能構成を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　［実施形態］
　この発明の実施形態は、多数の拠点に配信されるイベント等を視聴しているユーザが発した音に基づいて音響信号および／または映像信号からなる応援を生成し、その応援を配信元の拠点で再生する応援支援システムである。実施形態の応援支援システムは、図２に示すように、Ｎ個のユーザ空間１００－１，…，１００－Ｎと、１個の配信元空間２００とからなる。例えばスポーツのイベントの場合、配信元空間はスポーツが行われる空間（例えばスタジアム等）であり、ユーザ空間はユーザがイベントを視聴する空間（例えば自宅等）である。各空間は、地理的に離隔した複数の建物に分散していてもよいし、１つの建物内の複数の部屋であってもよい。

　各ユーザ空間１００－ｎには、ユーザ１０－ｎとユーザ端末１－ｎが存在する。ユーザ１０－ｎはユーザ端末１－ｎを用いて配信される映像を視聴する。ユーザ端末１－ｎには、ユーザ１０－ｎが発する音を集音するマイクロホンＭ－ｎが接続される。マイクロホンＭ－ｎは、ユーザ端末１－ｎの外部から有線または無線の各種インターフェイスで接続されていてもよいし、ユーザ端末１－ｎの筐体に内蔵されていてもよい。

　配信元空間２００には、少なくとも応援支援装置２が存在する。応援支援装置２には、音響信号である応援（以下、「応援音声」とも呼ぶ）を再生するスピーカＳと、映像信号である応援（以下、「応援映像」とも呼ぶ）を再生するディスプレイＤとが接続される。スピーカＳおよびディスプレイＤは、応援支援装置２の外部から有線または無線の各種インターフェイスで接続されていてもよいし、応援支援装置２の筐体に内蔵されていてもよいし、応援支援装置２の筐体と一体として形成されていてもよい。

　ユーザ端末１－ｎは、図３に示すように、音種別検出部１１および送信部１４を備える。音種別検出部１１は、特徴量変換部１１１および識別処理部１１２を備える。ユーザ端末１－ｎは、さらに、音声認識部１２および音量計算部１３を備えていてもよい。ユーザ端末１－ｎは、音種別検出部１１、音声認識部１２、および音量計算部１３のうち、いずれか１つのみを備えていてもよいし、いずれか２つの組み合わせを備えていてもよいし、３つすべてを備えていてもよい。

　応援支援装置２は、図４に示すように、集計部２１、音声取得部２２、音声再生部２３、音声素材記憶部２４、映像取得部２５、映像再生部２６、および映像素材記憶部２７を備える。再生される応援が音響信号のみからなる場合、映像取得部２５、映像再生部２６、および映像素材記憶部２７は備えなくともよい。再生される応援が映像信号のみからなる場合、音声取得部２２、音声再生部２３、および音声素材記憶部２４は備えなくともよい。

　ユーザ端末１－ｎおよび応援支援装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ユーザ端末１－ｎおよび応援支援装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ユーザ端末１－ｎおよび応援支援装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。ユーザ端末１－ｎおよび応援支援装置２は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。応援支援装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

　ユーザ端末１－ｎは、具体的には、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの音声信号処理機能およびデータ通信機能を備えた情報処理装置である。応援支援装置２は、具体的には、デスクトップ型やラックマウント型のサーバコンピュータなどのデータ通信機能およびデータ処理機能を備えた情報処理装置である。

　これらのユーザ端末１－ｎおよび応援支援装置２が協調して、図５に示す各ステップを実行することにより、実施形態の応援支援方法が実現される。以下、実施形態の応援支援システムが実行する応援支援方法について説明する。

　ステップＳ１０において、ユーザ端末１－ｎに接続されたマイクロホンＭ－ｎは、ユーザ１０－ｎが発した音（以下、「ユーザの反応」とも呼ぶ）を集音する。ユーザの反応には、例えば、配信する映像がスポーツの試合である場合、拍手の音、歓声、応援の声などが含まれる。したがって、マイクロホンＭ－ｎが集音した音響信号は、ユーザの声が含まれている音声信号であることもあれば、ユーザの声が含まれていない音信号であることもある。マイクロホンＭ－ｎが集音した音響信号は、ユーザ端末１－ｎの音種別検出部１１へ入力される。ユーザ端末１－ｎが音声認識部１２および／または音量計算部１３を備える場合、マイクロホンＭ－ｎが集音した音響信号は音声認識部１２および／または音量計算部１３へも入力される。

　ステップＳ１１において、ユーザ端末１－ｎは、マイクロホンＭ－ｎが集音した音響信号に基づいて、ユーザの反応を表す反応情報を生成する。反応情報の内容は、ユーザ端末１－ｎが音種別検出部１１、音声認識部１２、および音量計算部１３のいずれを備えるかによって異なる。

　ユーザ端末１－ｎが音種別検出部１１を備える場合、反応情報は、ユーザが発した音が予め定めた複数の音種別のいずれであるかを識別した結果を含む。すなわち、音種別検出部１１は、入力された音響信号を予め定めた複数の音種別のいずれかに識別し、その識別結果を反応情報として出力する。例えば、配信する映像がスポーツの試合である場合、予め定めた音種別は、例えば、拍手、歓声、応援などである。具体的には、まず、特徴量変換部１１１が、入力された音響信号を、例えば周波数スペクトルやケプストラムなどの音響特徴量へ変換する。次に、識別処理部１１２が、音響特徴量を事前に学習されたニューラルネットワークなどの識別器に入力することで、その音響特徴量が予め定めた音種別のいずれに該当するかを識別する。

　ユーザ端末１－ｎが音声認識部１２を備える場合、反応情報は、ユーザが発話した音声が表す文字列を含む。すなわち、音声認識部１２は、入力された音響信号を音声認識することで文字列に変換し、その文字列を反応情報として出力する。

　ユーザ端末１－ｎが音量計算部１３を備える場合、反応情報は、ユーザが発した音の音量を含む。すなわち、音量計算部１３は、入力された音響信号の音量を計算し、その音量を表す情報を反応情報として出力する。

　ステップＳ１４において、ユーザ端末１－ｎの送信部１４は、音種別検出部１１、音声認識部１２、および音量計算部１３のうち少なくとも１つが出力した反応情報を、応援支援装置２へ送信する。応援支援装置２は、各ユーザ端末１－ｎから受信した反応情報を集計部２１へ入力する。

　ステップＳ２１において、応援支援装置２の集計部２１は、各ユーザ端末１－ｎから受信した反応情報を集計し、その集計結果を出力する。集計部２１は、例えば、図６に示すように、受信データバッファ２１１および音種別集計部２１２を備える。集計部２１は、さらに、文字列集計部２１３および／または平均音量計算部２１４を備えていてもよい。集計部２１が文字列集計部２１３および平均音量計算部２１４それぞれを備えるか否かは、ユーザ端末１－ｎから受信する反応情報の内容によって決定される。すなわち、反応情報が文字列を含む場合（すなわち、ユーザ端末１－ｎが音声認識部１２を備える場合）、集計部２１は文字列集計部２１３を備える。また、反応情報が音量を含む場合（すなわち、ユーザ端末１－ｎが音量計算部１３を備える場合）、集計部２１は平均音量計算部２１４を備える。

　受信データバッファ２１１は、各ユーザ端末１－ｎから受信した反応情報を、一定時間分ＦＩＦＯバッファにより蓄積する。蓄積する時間長は予め設定されており、例えば、１秒から数十秒程度である。音種別集計部２１２は、受信データバッファ２１１に蓄積された反応情報（すなわち、音種別の識別結果）を音種別ごとにカウントし、音種別ごとの受信数（すなわち、その音種別に該当する音を発した視聴者の数）を表す音種別集計結果を出力する。文字列集計部２１３は、受信データバッファ２１１に蓄積された反応情報（すなわち、音声認識結果）を文字列ごとにカウントし、文字列ごとの受信数（すなわち、その文字列を発話した視聴者の数）を表す文字列集計結果を出力する。平均音量計算部２１４は、受信データバッファ２１１に蓄積された反応情報（すなわち、音量）から一定時間内の音量の平均を表す平均音量計算結果を出力する。なお、音量集計結果は、視聴者全体の平均値であってもよいし、音種別ごとまたは文字列ごとの平均値であってもよい。

　ステップＳ２２において、応援支援装置２の音声取得部２２は、集計部２１が出力する集計結果に基づいて、配信元空間で再生する応援音声を取得し、出力する。音声取得部２２は、事前に用意され音声素材記憶部２４に記憶された音声素材を用いて、応援音声を取得する。

　音声素材記憶部２４は、図７に示すように、Ｋ種類の音声素材２４１－１，…，２４１－Ｋ（Ｋは音種別の数であり、２以上の整数）が予め記憶されている。各音声素材２４１－ｋ（ｋ＝１，…，Ｋ）は、ユーザが発した音を識別した複数の音種別にそれぞれ対応して予め設定された音響信号である。例えば、配信する映像がスポーツの試合である場合、大勢の観客が拍手をしている音の音声素材２４１－１、歓声を上げている音の音声素材２４１－２、および応援している音の音声素材２４１－３等を用意しておけばよい。応援の音は、試合の進行状況（例えば、野球の試合であれば、打者ごとに応援歌が異なる場合や、得点圏に走者がおり得点の好機である場合等）に応じて変更してもよい。この場合、音声素材記憶部２４はさらに選択部２４２を備える。選択部２４２は、予め定めたルールに従って自動的にもしくは手動で外部から入力される操作信号に応じて、応援している音の音声素材２４１－３を指定された音響信号に変更する。

　音声取得部２２は、図７に示すように、ゲイン値設定部２２０、Ｋ個のゲイン２２１－ｋ、および加算部２２２を備える。各ゲイン２２１－ｋは、音声素材２４１－ｋにそれぞれ対応する。ゲイン値設定部２２０は、集計部２１が出力する集計結果に基づいて、各音声素材２４１－ｋに対応するゲイン２２１－ｋを算出し設定する。例えば、音種別集計結果が表す各音種別の受信数に応じてゲインを設定する。この場合、音種別ごとの受信数をN_kとしたとき、ゲインG_kをG_k=α・N_kで求める。ここで、αは予め定めた定数であり、例えば視聴者数の逆数である。また、最も受信数が多い音種別のみを有効とし、他の音種別のゲインを０に設定してもよい。また、例えば、平均音量計算結果が表す音種別ごとの平均音量も用いて、音種別の受信数に平均音量を乗じた値（すなわち、音種別ごとの視聴者の音量の総和）に応じてゲインを設定してもよい。この場合、音種別ごとの平均音量をV_kとし、ゲインG_kをG_k=α・V_k・N_kで求める。加算部２２２は、音声素材２４１－ｋにゲイン２２１－ｋを乗じた各信号を加算して応援音声として出力する。

　音声取得部２２は、音声合成部２２３およびゲイン２２４をさらに備えていてもよい。音声合成部２２３およびゲイン２２４は、ユーザ端末１０－ｎが音声認識部１２を備える場合（すなわち、集計部２１に入力される反応情報に音声認識結果の文字列が含まれ、集計部２１が文字列集計結果を出力する場合）に必要となる。音声合成部２２３は、文字列集計結果のうち受信数が多い方から所定の数の文字列を抽出し、その文字列を音声合成する。ゲイン値設定部２２０は、各文字列の受信数やその平均音量に応じてゲイン２２４を算出し設定する。加算部２２２は、音声素材２４１－ｋにゲイン２２１－ｋを乗じた各信号に加えて、音声合成部２２３の出力信号にゲイン２２４を乗じた信号も加算して応援音声として出力する。このとき、加算後の信号がゲインの上限を超えないように、各ゲインの最大値を設定しておいてもよい。

　ステップＳ２３において、応援支援装置２の音声再生部２３は、音声取得部２２が出力する応援音声を、応援支援装置２に接続されたスピーカＳから再生する。

　ステップＳ２５において、応援支援装置２の映像取得部２５は、集計部２１が出力する集計結果に基づいて、配信元空間で再生する応援映像を取得し、出力する。映像取得部２５は、事前に用意され映像素材記憶部２７に記憶された映像素材を用いて、応援映像を取得する。

　映像素材記憶部２７は、図８に示すように、Ｋ種類の映像素材２７１－１，…，２７１－Ｋが予め記憶されている。各映像素材２７１－ｋは、ユーザが発した音を識別した複数の音種別にそれぞれ対応して予め設定された映像信号である。例えば、配信する映像がスポーツの試合である場合、大勢の観客が拍手をしている映像の映像素材２７１－１、歓声を上げている映像の映像素材２７１－２、および応援をしている映像の映像素材２７１－３などを用意しておけばよい。応援の映像は、試合の進行状況に応じて変更してもよい。この場合、映像素材記憶部２７はさらに選択部２７２を備える。選択部２７２は、予め定めたルールに従って自動的にもしくは手動で外部から入力される操作信号に応じて、応援している映像の映像素材２７１－３を指定された映像信号に変更する。

　映像取得部２５は、図８に示すように、映像選択部２５１を備える。映像選択部２５１は、集計部２１が出力する集計結果に基づいて、各映像素材２７１－ｋのうち適切なものを選択する。例えば、音種別集計結果が表す各音種別の受信数N_kが最も大きい音種別に対応する映像素材を選択する。また、例えば、平均音量計算結果が表す音種別ごとの平均音量V_kも用いて、音種別の受信数N_kに平均音量V_kを乗じた値V_k・N_kが最も大きい音種別に対応する映像素材を選択してもよい。映像取得部２５は、選択した映像素材を応援映像として出力する。

　映像取得部２５は、メータ表示部２５２をさらに備えていてもよい。メータ表示部２５２は、集計部２１が出力する集計結果に基づいて算出した指標をメータ表示にして映像素材に合成することで、応援映像を生成する。集計結果に基づく指標は、例えば、映像素材を選択する際に用いた値である。例えば、音種別の受信数N_kであってもよいし、音種別の受信数N_kに平均音量V_kを乗じた値V_k・N_kであってもよい。メータ表示の例を、図９に示す。図９の例では、応援映像２５０１の右端に縦長矩形のメータ２５０２を表示する。メータ２５０２は、下辺を０、上辺を最大値（MAX）として、上側領域と下側領域とを塗り分けることで、指標の値を表す。なお、図９はメータ表示の一例であり、指標が容易に視認できるような表示であればどのようなものであっても構わない。

　ステップＳ２６において、応援支援装置２の映像再生部２６は、映像取得部２５が出力する応援映像を、応援支援装置２に接続されたディスプレイＤから再生する。

　上記のように構成することにより、実施形態の応援支援システムによれば、異なる拠点に分散している多数の視聴者の反応を集約した音声および／または映像を配信元の拠点に提示することができる。これにより、視聴者は文字列入力等の煩雑な操作を行う必要なく配信元へ反応を伝えることができ、イベントの当事者は視覚を奪われることなく視聴者の盛り上がり等の雰囲気を体感することができる。

　［変形例１］
　実施形態の映像取得部２５は、予め用意した映像素材を選択することで応援映像を取得した。変形例１の映像取得部２５は、集計結果等に基づいて動的に映像を生成することで、よりユーザの反応に適した応援映像を取得する。

　変形例１の映像取得部２５は、音声取得部２２が取得した応援音声から人物の動作を表すモーションを生成し、予め設定した映像素材にそのモーションに従った動作をさせた映像信号を応援映像として取得する。音響信号からモーションを生成し、映像素材にモーションに従った動作をさせる技術は、例えば、参考文献１に開示された技術を用いて実現することができる。
　〔参考文献１〕特開２０１８－３２３１６号公報

　例えば、ユーザごとに予め自身のアバターを設定しておき、そのアバターが応援音声として取得された応援歌等の音楽に合わせて振り付けられたモーションをとる映像を合成することで、大勢のユーザが音楽に合わせて踊る応援映像を生成することや、ユーザごとに反応に対応するモーションを行っている映像を生成することが可能となる。後者の映像は、例えば、ユーザ１０－１は拍手するモーションを行い、ユーザ１０－Ｎは叫んでいるモーションを行う映像である。このとき、集計部２１が出力する集計結果に基づいて、応援映像中でモーションをとるユーザの数を制御するように構成してもよい。例えば、ユーザが発した音の半分が応援の音である場合、応援映像中に現れるユーザのうち半分程度がモーションをとるように構成することができる。

　以下、参考文献１に記載の映像生成技術について説明する。この映像生成技術は、Ｎ種類の楽器の演奏または歌唱それぞれに係る音響信号であるＮ個の時系列音響信号を入力とし、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得る。Ｎは１以上の整数のいずれかである。この映像生成技術では、深層学習を用いて、音と行動の関係をあらかじめニューラルネットワークを用いて記述することで、音を入力するだけで行動パターンを推定する。すなわち、事前に学習したニューラルネットワークに時系列音響信号、あるいはそれらを特徴量子化したベクトル群を入力することで、時系列音響信号に対応するエージェントの行動パターンを推定する。ここで、ニューラルネットワークは全結合型深層ニューラルネットワーク（Full-connected Deep Neural Networks）、再帰型ニューラルネットワーク（Recurrent Neural Networks）、畳み込みニューラルネットワーク（Convolutional Neural Networks）等のどれでもよい。つまり、この映像生成技術は、ニューラルネットワークの実装形態に依存しない。

　参考文献１の映像生成技術では、まず、Ｎ個の時系列音響信号を入力とし、各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る。このとき、時系列音響信号と演奏または歌唱するエージェントの行動との関係を表す行動生成モデルを用いて、Ｎ個の各時系列音響信号に含まれる各時間区間についてのエージェントの時間区間映像を得る。行動生成モデルは、Ｎ種類の楽器の演奏または歌唱それぞれに係る学習用音響信号であるＮ個の学習用時系列音響信号と、Ｎ個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するエージェントの行動を示す行動ラベルとを用いて、事前に学習により得られる。次に、Ｎ個の各時系列音響信号について、その時系列音響信号について得た１個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る。

　すなわち、音声素材記憶部２４に記憶された音声素材を学習用時系列音響信号とし、各音声素材の各時間区間にエージェントの行動を示す行動ラベルを与えて、ニューラルネットワークで学習することで、ユーザが予め設定したアバターが音声素材に従ってモーションをとる応援映像を生成することができる。

　［変形例２］
　上記実施形態では、各ユーザ空間で１人のユーザがイベントを視聴していることを想定した。しかしながら、例えばスポーツバーなどのように、１つのユーザ空間において複数のユーザがイベントを視聴することも考えられる。この場合、あるユーザは拍手をしているが、他のあるユーザは歓声を上げているなど、同じユーザ空間に存在する各ユーザが様々な反応を示すことがあり得る。この場合、マイクロホンで集音された音響信号には、複数の音種別が混合することになる。

　マイクロホンで集音された音響信号に複数種類の反応が含まれ得る場合、ユーザ端末１－ｎの音種別検出部１１が、入力された音響信号を音種別ごとに分離し、分離後の各音響信号に対して上記実施形態の処理を行えばよい。また、例えば、「拍手＋歓声」や「拍手＋応援」など、複数の音種別が混合した状態を１つの音種別として定義しておき、入力された音響信号に対してそのまま上記実施形態の処理を行ってもよい。

　［変形例３］
　上記実施形態では、ユーザの反応の集計結果に基づいて応援音声および／または応援映像を選択する構成を示したが、各ユーザの反応に基づいて選択した音声素材および／または映像素材を、各ユーザに対応するように設置されたスピーカおよび／またはディスプレイへそれぞれ出力してもよい。このとき、ディスプレイへの映像出力に代えて人間の姿が描かれたパネルを設置しておいてもよい。例えば、スポーツが行われているスタジアムの観客席に小型のディスプレイを設置しておき、各ユーザの反応に対応した応援映像を出力すれば、スタジアム全体にユーザの雰囲気を再現することが可能となる。

　［変形例４］
　上記実施形態では、ユーザの反応をユーザ全体で集計して応援音声および／または応援映像を出力する構成を示したが、ユーザを複数の集合に分割しておき、各集合についてユーザの反応を集計して集合ごとに応援音声および／または応援映像を出力してもよい。例えば、スポーツが行われているスタジアムにおいてホーム側の観客席とアウェー側の観客席とに領域を分割しておき、ホーム側に関連付けられたユーザの反応と、アウェー側に関連付けられたユーザの反応とで、異なる応援音声および／または応援映像を出力することが可能となる。

　［変形例５］
　上記実施形態では、イベントの当事者に対してユーザの反応を提示する構成を示したが、同時に、ユーザの反応を同じイベントを視聴している他のユーザへ提示してもよい。具体的には、応援支援システムがユーザ端末１－ｎへ配信する映像に、集計部２１が出力する集計結果に基づく指標を合成する。これにより、イベントの視聴者はそのイベントの視聴者全体の雰囲気を感じながら応援することができるようになる。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図１０に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを一時的な記憶装置である記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および／または映像信号からなる応援を前記配信元の空間で再生する応援支援方法であって、
　前記応援を取得する取得ステップと、
　取得された応援を再生する再生ステップと、
　を有し、
　前記取得された応援は、複数の音種別のうち、発した視聴者が多い音種別に対応する応援ほど強調され、発した視聴者が少ない音種別に対応する応援ほど強調されず再生される、
　応援支援方法。
　請求項１に記載の応援支援方法であって、
　前記取得された応援は、複数の視聴者が発した音の音量の総和が大きい音種別に対応する応援ほど大きな音量で再生される、
　応援支援方法。
　請求項１に記載の応援支援方法であって、
　前記応援が映像信号を含む場合、その映像信号は、複数の視聴者が発した音の音種別に応じて取得される、
　応援支援方法。
　請求項１に記載の応援支援方法であって、
　前記視聴者が発した音を予め定めた複数の音種別のいずれかに識別した識別結果を受信し、前記音種別ごとに発した視聴者の数を集計する集計ステップをさらに含む、
　応援支援方法。
　請求項１に記載の応援支援方法であって、
　前記視聴者が発した音に含まれる前記視聴者の発話を音声認識した文字列を受信し、前記文字列ごとに発話した視聴者の数を集計する集計ステップをさらに含み、
　前記取得された応援は、発話した視聴者が多い文字列ほど強調された音響信号を加算して再生される、
　応援支援方法。
　請求項２に記載の応援支援方法であって、
　前記視聴者が発した音の音量を受信し、前記音種別ごとに前記音量の統計値を計算する集計ステップをさらに含む、
　応援支援方法。
　配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および／または映像信号からなる応援を前記配信元の空間で再生する応援支援装置であって、
　前記応援を取得する取得部と、
　取得された応援を再生する再生部と、
　を備え、
　前記取得された応援は、複数の音種別のうち、発した視聴者が多い音種別に対応する応援ほど強調され、発した視聴者が少ない音種別に対応する応援ほど強調されず再生される、
　応援支援装置。
　請求項１から６のいずれかに記載の応援支援方法の各ステップをコンピュータに実行させるためのプログラム。