WO2023058330A1

WO2023058330A1 - 情報処理装置、情報処理方法、および記憶媒体

Info

Publication number: WO2023058330A1
Application number: PCT/JP2022/031034
Authority: WO
Inventors: 充勝股; 健太安部
Original assignee: ソニーグループ株式会社
Priority date: 2021-10-06
Filing date: 2022-08-17
Publication date: 2023-04-13
Also published as: CN118020309A

Abstract

【課題】視聴者の音声データを生成する際の負荷をより低減することが可能な情報処理装置、情報処理方法、および記憶媒体を提供する。【解決手段】視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、および記憶媒体

　本開示は、情報処理装置、情報処理方法、および記憶媒体に関する。

　スポーツや音楽ライブ等のイベントは、そのイベントの開催会場で体験する他、ＴＶ放送や、インターネット配信により体験することができる。特に昨今では、インターネットの普及と利便性から、イベント配信がリアルタイムで行われ、パブリックビューイングの会場や自宅等から、多くの視聴者が参加し得る。ここで、インターネット配信等でのイベント体験における、会場でのイベント体験との大きな違いの一つとして、視聴者の歓声や拍手等の反応を演者や他の視聴者に伝える手段が無いことが挙げられる。歓声や拍手といった視聴者の反応は、演者のモチベーションアップや、観客間のさらなる盛り上がりにも繋がり、イベントでは重要な要素と言える。

　このような視聴者の反応を共有する技術に関し、例えば下記特許文献１では、遠隔地で視聴している各視聴者（リモートユーザ）の発声音を収音し、そのデータをサーバに送信し、サーバで複数の音声データを加算した上で各リモートユーザに配信することで、リモートユーザ間で反応の共有を行うことが開示されている。

特開２０１２－１２９８００号公報

　しかしながら、上記特許文献１の技術では、サーバの処理負荷が高く、また、ライブ配信が行われている際に収音した音声データをサーバに常にアップロードするためにはより多くの通信容量が必要となり、遅延も生じ得る。

　そこで、本開示では、視聴者の音声データを生成する際の負荷をより低減することが可能な情報処理装置、情報処理方法、および記憶媒体を提案する。

　本開示によれば、視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行うことを含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部として機能させるプログラムが記憶された、記憶媒体を提案する。

本開示の一実施形態による音声データ生成システムの概要について説明する図である。本実施形態によるサーバおよび視聴者端末の構成の一例を示すブロック図である。本実施形態による音声データ生成処理の流れの一例を示すシーケンス図である。本実施形態による音声データ生成処理におけるデータ送信について説明する図である。本実施形態によるイベントの場面に応じて視聴者音声データを変更する制御について説明する図である。本実施形態によるラベリング情報を用いた音声データ生成処理の流れの一例を示すシーケンス図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による音声データ生成システムの概要
　２．構成例
　　２－１．サーバ２０の構成例
　　２－２．視聴者端末１０の構成例
　３．動作処理
　４．具体例
　　４－１．人数に応じた視聴者音声データの生成
　　４－２．性別、感情に応じた視聴者音声データの生成
　　４－３．性質に応じた視聴者音声データの生成
　　４－４．視聴環境に応じた視聴者音声データの生成
　　４－５．同じ場所にいる視聴者の人数に応じた視聴者音声データの生成
　　４－６．仮想的な座席エリアに応じた視聴者音声データの生成
　　４－７．収音部の有効／無効に応じた視聴者音声データの生成
　　４－８．イベントの場面に応じた視聴者音声データの生成
　　４－９．ラベリングに応じた視聴者音声データの生成
　　４－１０．音声データと音声メタデータの併用
　　４－１１．アーカイブ配信での音声メタデータの利用
　５．補足

　＜＜１．本開示の一実施形態による音声データ生成システムの概要＞＞
　図１は、本開示の一実施形態による音声データ生成システムの概要について説明する図である。図１に示すように、本実施形態による音声データ生成システムは、イベント会場装置３０と、サーバ２０と、視聴者端末１０と、を含む。

　イベント会場装置３０は、イベントが開催されている会場の映像および音声を取得し、サーバ２０に送信する。イベント会場装置３０は、複数の装置により構成されていてもよい。イベント会場は、ステージと観客席がある施設（アリーナやコンサート会場等）であってもよいし、収録用の部屋（収録スタジオ）であってもよい。

　サーバ２０は、イベント会場装置３０から受信したイベント会場の映像と音声をリアルタイムで視聴者端末１０に配信する制御を行う情報処理装置である。

　視聴者端末１０（１０ａ～１０ｃ・・・）は、視聴者がイベント会場の視聴に用いる情報処理端末である。視聴者端末１０は、例えば、スマートフォン、タブレット端末、ＰＣ（パーソナルコンピュータ）、ＨＭＤ（Head　Mounted　Display）、プロジェクター、テレビ装置、ゲーム機等により実現され得る。ＨＭＤは、視界全体を覆う非透過型の表示部を有してもよいし、透過型の表示部を有してもよい。視聴者端末１０は、サーバ２０と通信接続し、サーバ２０から受信するイベント会場の映像および音声を出力する。

　（課題の整理）
　ここで、上述したように、インターネット配信等でのイベント体験における、会場でのイベント体験との大きな違いの一つとして、視聴者の歓声や拍手等の反応を演者や他の視聴者に伝える手段が無いことが挙げられる。歓声や拍手といった視聴者の反応は、演者のモチベーションアップや、観客間のさらなる盛り上がりにも繋がり、イベントでは重要な要素と言える。各視聴者（リモートユーザ）の発声音を収音し、これをサーバに送信し、サーバで音声処理を施して複数の音声データを加算した上で各リモートユーザに配信することも考え得る。しかしながら、サーバの処理負荷が高く、また、ライブ配信が行われている際に収音した音声データをサーバに常にアップロードするためにはより多くの通信容量が必要となり、遅延も生じ得る。

　そこで、本開示による情報処理システムでは、音声メタデータを用いて、視聴者の音声データを生成する際の負荷をより低減することを可能とする。

　具体的には、視聴者端末１０において、イベント会場の映像と音声を出力する一方、視聴者の発声音に関する情報を示す音声メタデータを生成し、サーバ２０に送信する。サーバ２０は、１以上の視聴者端末１０からリアルタイムで音声メタデータを取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する。視聴者音声データは、視聴者全体の音声データと言える。

　例えばサーバ２０は、各視聴者端末１０から取得した音声メタデータに基づいて、歓声を上げている視聴者の人数をカウントし、その人数に対応する視聴者音声データを、予め用意された人数別視聴者音声データから選択し、出力用の視聴者音声データとする。そして、サーバ２０は、生成した視聴者音声データを、イベント会場装置３０や、１以上の視聴者端末１０に送信する。イベント会場装置３０は、イベント会場に設置されたスピーカ等から視聴者音声データを出力し、演者に視聴者の反応をリアルタイムでフィードバックすることができる。視聴者端末１０は、視聴者音声データを出力することで、他の視聴者の反応を視聴者に提供することができる。

　本実施形態では、音声メタデータを用いることで通信量の負荷を軽減し、また、予め用意された音声データを用いることで、サーバ２０の処理負荷も低減し得る。

　以上、本開示の一実施形態による音声データ生成システムの概要について説明した。続いて、本実施形態による音声データ生成システムに含まれる各装置の構成について図面を参照して説明する。

　＜＜２．構成例＞＞
　図２は、本実施形態による音声データ生成システムに含まれるサーバ２０および視聴者端末１０の構成の一例を示すブロック図である。サーバ２０および視聴者端末１０は、ネットワークを介して通信接続し、データの送受信を行い得る。以下各装置の構成について説明する。

　＜２－１．サーバ２０の構成例＞
　図２に示すように、サーバ２０は、通信部２１０、制御部２２０、および記憶部２３０を有する。

　（通信部２１０）
　通信部２１０は、有線または無線により外部装置とデータの送受信を行う。通信部２１０は、例えば有線／無線ＬＡＮ（Local　Area　Network）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、４Ｇ（第４世代の移動体通信方式）、５Ｇ（第５世代の移動体通信方式））等を用いて、視聴者端末１０や、イベント会場装置３０と通信接続する。

　（制御部２２０）
　制御部２２０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ２０内の動作全般を制御する。制御部２２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　制御部２２０は、イベント会場装置３０から受信したイベント会場の映像および音声を視聴者端末１０に送信する制御を行う。制御部２２０は、例えばリアルタイムでイベントが行われているイベント会場の映像及び音声を、１以上の視聴者端末１０にストリーミング配信してもよい。

　また、本実施形態による制御部２２０は、音声メタデータ解析部２２１、および視聴者音声データ生成部２２２としても機能する。

　音声メタデータ解析部２２１は、各視聴者端末１０から継続的に送信される音声メタデータの解析を行う。音声メタデータには含まれる情報の具体例については後述する。音声メタデータ解析部２２１は、各視聴者端末１０から取得した音声メタデータを解析し、歓声を上げている視聴者の人数をカウントする等、適宜処理を行う。音声メタデータ解析部２２１は、解析結果を視聴者音声データ生成部２２２に出力する。

　視聴者音声データ生成部２２２は、音声メタデータ解析部２２１による解析結果に基づいて、出力用の視聴者音声データを生成する。この際、視聴者音声データ生成部２２２は、予め用意された（例えば記憶部２３０に記憶された）音声データを用いて、視聴者音声データを生成する。予め用意された音声データとは、例えば歓声（「わー」、「きゃー」、「うおー」等）である。かかる歓声は、例えば人数別に用意され得る。すなわち、事前に20人の歓声、50人の歓声、100人の歓声等を収録し、収録した音声データを記憶部２３０に格納する。

　例えば視聴者音声データ生成部２２２は、視聴者音声データの生成として、解析結果で示される人数（歓声を上げている視聴者の人数）に対応する視聴者音声データを、予め用意された人数別視聴者音声データから選択する。収音された視聴者の音声データに対して音声処理を施して合成する場合に比べて、予め用意された人数別視聴者音声データから視聴者音声データを選択することで、サーバ２０の処理負荷を大幅に軽減し得る。なお、ここで説明した視聴者音声データの生成は一例である。視聴者音声データの生成方法のバリエーションについては、後述する。

　制御部２２０は、生成した視聴者音声データを、通信部２１０から、視聴者端末１０や、イベント会場装置３０に送信する制御を行う。なお、制御部２２０は、視聴者端末１０に向けては、生成した視聴者音声データにイベント会場の音声データを合成した音声データを送信してもよい。

　以上説明した視聴者音声データの生成と送信は、制御部２２０において継続的に行われ得る。例えば制御部２２０は、0.5秒毎に生成および送信を行ってもよい。

　（記憶部２３０）
　記憶部２３０は、制御部２２０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。例えば、本実施形態により記憶部２３０は、視聴者音声データの生成に用いられる音声データを格納する。

　以上、サーバ２０の構成について具体的に説明したが、本開示によるサーバ２０の構成は図２に示す例に限定されない。例えば、サーバ２０は、複数の装置により実現されてもよい。

　＜２－２．視聴者端末１０の構成例＞
　図２に示すように、視聴者端末１０は、通信部１１０、制御部１２０、表示部１３０、収音部１４０、音声出力部１５０、および記憶部１６０を有する。

　（通信部１１０）
　通信部１１０は、有線または無線により外部装置とデータの送受信を行う。通信部１１０は、例えば有線／無線ＬＡＮ（Local　Area　Network）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、４Ｇ（第４世代の移動体通信方式）、５Ｇ（第５世代の移動体通信方式））等を用いて、サーバ２０と通信接続する。

　（制御部１２０）
　制御部１２０は、演算処理装置および制御装置として機能し、各種プログラムに従って視聴者端末１０内の動作全般を制御する。制御部１２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　制御部１２０は、サーバ２０から受信したイベント会場の映像を表示部１３０に表示する制御と、サーバ２０から受信したイベント会場の音声や視聴者音声データを音声出力部１５０から再生する制御とを行う。サーバ２０からは、例えばリアルタイムでイベントが行われているイベント会場の映像及び音声が、ストリーミング配信される。

　また、本実施形態による制御部１２０は、音声メタデータ生成部１２１としても機能する。音声メタデータ生成部１２１は、視聴者の発声音に関する情報を示す音声メタデータを生成する。例えば、音声メタデータ生成部１２１は、収音部１４０により視聴者の発声音を収音した収音データに基づいて生成する。視聴者はイベント会場の配信を視聴している際に歓声を上げることが想定され、かかる歓声（発声音）が収音部１４０により収音される。また、音声メタデータ生成部１２１は、予め設定／計測された情報に基づいて音声メタデータを生成してもよい。視聴者の発声音に関する情報とは、例えば発声の有無や、発声した視聴者の性別、発声した際の感情（具体的な歓声の種類）等である。音声メタデータの具体的な内容については、後述する。音声メタデータ生成部１２１は、サーバ２０によるイベント会場のライブ配信（例えばイベント会場の映像および音声のストリーミング配信）が行われている間、継続的に音声メタデータを生成し、サーバ２０に送信する。例えば音声メタデータ生成部１２１は、0.5秒毎に音声メタデータを生成し、サーバ２０に送信してもよい。

　（表示部１３０）
　表示部１３０は、制御部１２０の指示に従って、イベント会場の映像を表示する機能を有する。例えば表示部１３０は、液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）、有機ＥＬ（Electro　Luminescence）ディスプレイなどの表示パネルであってもよい。

　（収音部１４０および音声出力部１５０）
　収音部１４０は、視聴者（ユーザ）の発声音を収音する機能を有する。収音部１４０は、収音した音声データを制御部１２０に出力する。

　音声出力部１５０は、制御部１２０の指示に従って、音声データを出力（再生）する機能を有する。音声出力部１５０は、例えば視聴者端末１０に設けられるラウンドスピーカ、視聴者端末１０と有線／無線通信するヘッドフォン、イヤフォン、若しくは骨伝導スピーカとして構成されてもよい。

　（記憶部１６０）
　記憶部１６０は、制御部１２０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　以上、視聴者端末１０の構成について具体的に説明したが、本開示による視聴者端末１０の構成は図２に示す例に限定されない。例えば、表示部１３０、収音部１４０、および音声出力部１５０の少なくともいずれかが別体であってもよい。

　＜＜３．動作処理＞＞
　次に、本実施形態による音声データ生成処理の流れについて図面を用いて具体的に説明する。図３は、本実施形態による音声データ生成処理の流れの一例を示すシーケンス図である。

　まず、図３に示すように、視聴者端末１０は、収音部１４０から収音データ（入力情報）を取得する（ステップＳ１０３）。

　次に、視聴者端末１０は、入力情報（収音データ）に基づいて音声メタデータを生成し（ステップＳ１０６）、生成した音声メタデータをサーバ２０に送信する（ステップＳ１０９）。

　次いで、サーバ２０は、１以上の視聴者端末１０から音声メタデータを取得し（ステップＳ１１２）、音声メタデータの解析を行う（ステップＳ１１５）。

　次に、サーバ２０は、解析結果に基づいて、視聴者音声データを生成する（ステップＳ１１８）。視聴者音声データは、視聴者全体の音声データと言える。

　そして、サーバ２０は、（イベント会場装置３０から受信した）イベント会場の音声データと共に、視聴者音声データを各視聴者端末１０に送信する（ステップＳ１２１）。図３に示す例では、一の視聴者端末１０しか図示されていないが、サーバ２０は、通信接続する全ての視聴者端末１０（全ての視聴者）に、視聴者音声データを送信する。視聴者端末１０では、イベント会場の音声データと、視聴者全体の音声データの再生が行われる（ステップＳ１２７）。

　また、サーバ２０は、視聴者音声データをイベント会場装置３０に送信する（ステップＳ１２４）。イベント会場装置３０は、イベント会場に設置されたスピーカ等で視聴者全体の音声データの再生を行う（ステップＳ１３０）。

　以上、本実施形態による音声データ生成処理の流れの一例について説明した。なお、図３に示す動作処理は一例であって、一部の処理が異なる順序や並列して実施されてもよいし、一部の処理が実施されなくともよい。例えば、視聴者音声データをイベント会場装置３０に送信する処理は必ずしも行われなくともよい。

　また、上述した処理は、サーバ２０によるイベントのライブ配信（イベント会場の映像および音声のリアルタイム配信）が行われる間、継続的に行われ得る。図４は、本実施形態による音声データ生成処理におけるデータ送信について説明する図である。図４に示すように、サーバ２０は、一定間隔（例えば0.5秒間隔）で、それまでに視聴者端末１０から受信した音声メタデータに基づいて視聴者音声データ（視聴者全体の音声データ）を生成し、各視聴者端末１０と、イベント会場装置３０に送信する。なお、視聴者端末１０には、パブリックビューイングの会場に対応する情報処理端末も含まれる。イベント配信が個人とパブリックビューイング会場に居る観客に向けて行われている際に、個人の歓声とパブリックビューイングの観客の歓声とを互いに共有することが可能となる。

　例えば、音声メタデータには発声音（歓声）の有無が含まれ、サーバ２０は、歓声を上げた視聴者の人数に応じて人数別の視聴者音声データを選択し、送信する。この場合、例えばあるタイミングでの音声データ生成処理では発声音：有が50人であったため50人の歓声を選択して送信し、次のタイミングでは発声音：有が100人であったため100人の歓声を選択して送信する。これにより、リアルタイムで徐々に視聴者が盛り上がっている（歓声が増えている）ことを、視聴者間や演者が共有することができる。

　＜＜４．具体例＞＞
　続いて、視聴者音声データの生成について具体例を用いて説明する。

　＜４－１．人数に応じた視聴者音声データの生成＞
　例えば、音声メタデータには、発声音の有無が含まれ、視聴者音声データ生成部２２２は、人数に応じた視聴者音声データを生成する。

　視聴者端末１０の音声メタデータ生成部１２１は、収音部１４０の収音データを解析し（音声認識）、視聴者が発声したか否かを判断し、発声音の有無を示す情報を含む音声メタデータを生成する。生成するデータ例では、例えば「speaking_flag」として、発声音有りなら「1」、発声音無しなら「2」を付与してもよい。視聴者端末１０は、例えば１秒毎に発声音の有無を判断し、音声メタデータを生成、送信する。

　サーバ２０は、予め人数別の音声データを用意しておく。音声データは、例えば声援や歓声の音源である。サーバ２０の音声メタデータ解析部２２１は、１以上の視聴者端末１０から送信される音声メタデータに含まれる発声音の有無を示す情報から、発声有りの視聴者の人数をカウントする。そして、視聴者音声データ生成部２２２は、予め用意された人数別の音声データから、カウントした人数に近い音声データを選択し、視聴者音声データとする。サーバ２０は、このように生成された視聴者音声データを、各視聴者端末１０や、イベント会場装置３０に送信する。

　これにより、例えば無観客ライブ配信であっても、他の視聴者（観客）の歓声があるライブ配信の体験が可能となる。また、視聴者が発声した言葉が不適切な言葉であっても、発声したかどうかのみの情報を用いるため、他の視聴者に不適切な言葉がそのまま伝わるといった問題がない。

　なお、ここでは一例として発声音が無い場合も、発声音：無の情報を含む音声メタデータを送信する旨を説明したが、本実施形態はこれに限定されない。視聴者端末１０は、発声音：有の場合のみ、発声音：有の情報を含む音声メタデータを送信するようにしてもよい。

　＜４－２．性別、感情に応じた視聴者音声データの生成＞
　例えば、音声メタデータには、発声音を発した視聴者の性別、および発声音から判別される感情の少なくともいずれかが含まれ、視聴者音声データ生成部２２２は、性別、感情に応じた視聴者音声データを生成する。

　視聴者端末１０の音声メタデータ生成部１２１は、収音部１４０の収音データを解析し（音声認識）、女性の声か男性の声かを判断し、性別を示す情報を含む音声メタデータを生成する。なお、予め視聴者の性別が設定されている場合はその情報を用いてもよい。また、音声メタデータ生成部１２１は、収音部１４０の収音データを解析し（音声認識）、発声音から想起される感情を判断し、感情を示す情報を含む音声メタデータを生成する。例えば、歓声には様々な種類があり、例えば落胆の声、喜びの声、興奮している声、焦っている声、驚いている声、悲鳴等が想定され、感情が想起される。また、音声メタデータ生成部１２１は、感情の情報として、歓声の種類を示す情報を含めてもよい。また、音声メタデータ生成部１２１は、収音データの解析から、視聴者が何ら声を発していない場合は、発声していない旨の情報を含めてもよい。

　生成するデータ例では、例えば「emotion_type」として、「発声音無し：０」、「落胆している：１」、「喜んでいる（興奮している）：２」、「悲鳴：３」等を付与してもよい。

　サーバ２０は、予め性別別の音声データ（女性だけの歓声の音源、男性だけの歓声の音源等）や、感情別の音声データ（落胆の音源、喜びの声の音源、悲鳴の音源等）を用意しておく。これらの音声データは、１名分の音声データであってもよいし、ある程度の人数の音声データ（例えば1000人等）を用意してもよいし、さらに人数別の音声データをいくつか用意してもよい。

　サーバ２０の視聴者音声データ生成部２２２は、１以上の視聴者端末１０から送信される音声メタデータに含まれる性別や感情を示す情報から、予め用意された性別別の音声データや感情別の音声データから、それぞれ対応する音声データを選択し、視聴者音声データを生成する。より具体的には、視聴者音声データ生成部２２２は、各視聴者の音声メタデータ毎に音声合成し、これらをまとめて１つの音声データを生成する。

　または、例えば音声メタデータ解析部２２１が、感情毎の人数をカウントし、視聴者音声データ生成部２２２は、落胆の感情が50人の場合は、落胆の音声データを用いて50人分の音声データを生成し（若しくは近い人数の音声データを選択し）、さらに喜びの感情が100人の場合は、喜びの音声データを用いて100人分の音声データを生成し（若しくは近い人数の音声データを選択し）、これらをまとめて最終的な視聴者音声データを生成する。また、各感情の割合に応じて、予め用意されたある程度の人数の感情別音声データの音量等を調整して最終的な視聴者音声データを生成してもよい。性別の場合も同様に行われ得る。

　このように、性別や感情別の音声データから視聴者音声データを生成できることで、例えば、音楽ライブにおいて演者の呼びかけにより女性だけのリアクション、男性だけのリアクションを視聴者から得ることが可能となる。別の例としては、例えばサッカーのゴールシーンにおいて、応援しているチームの得点と敵チームの得点で喜びと落胆が同時に起きる場合があり、その場合に、両方の声が入った視聴者音声データを生成することができる。

　以上説明したように、視聴者の性別や感情を視聴者音声データの生成に反映させることで、視聴者間や演者が共有する視聴者の反応を、より実際の反応に近付けることができる。

　＜４－３．性質に応じた視聴者音声データの生成＞
　生成する視聴者音声データを、さらに実際の反応に近付けるために、例えば、視聴者の声の性質（性別、声の高さ（高い、低い）、太さ（細い、太い）等）を用いてもよい。

　視聴者端末１０では、視聴者の声の性質を予め解析し、性質情報を生成する。そして、音声メタデータには、視聴者の性別、および声の性質を示す情報を含める。これらの情報は、音声生成用パラメータとも称される。

　サーバ２０の視聴者音声データ生成部２２２は、１以上の視聴者端末１０から送信される音声メタデータ毎に、声の性質を示す情報に基づいて、予め用意されたデフォルトの音声データを適宜調整して、視聴者音声データを生成し、これらをまとめて１つの音声データを生成する。これにより、元々用意された歓声そのままではなく、視聴者の声の性質を反映させた、より実際に近い歓声を生成することができる。

　（変形例１）
　上述した音声メタデータには、性別と声の性質に加えて、さらに、発声音から判断される感情の情報（歓声の種類）が含まれていてもよい。これにより、視聴者毎の音声データを生成する際、感情に応じた音声データを生成することができる。

　また、音声メタデータには、さらに視聴者の発声した音声の大きさ情報を含めてもよい。これにより、視聴者毎の音声データを生成する際、実際に発した声の大きさに応じた音声データを生成することができる。

　（変形例２）
　上述した視聴者の声の性質は、視聴者が任意に設定してもよい。これにより、実際の自分の声色とは異なる声色で応援する（歓声を上げる）ことが可能になる。例えば、男性が女性の声を用いてもよい。また、予め配信提供者側で準備した音声生成用パラメータ（例えば有名人の音声生成用パラメータ）から選択できるようにしてもよい。さらに、配信提供者側で用意される音声生成用パラメータは、別途販売、若しくは特定のイベントのチケットにのみ付属するように扱ってもよい。これにより、配信提供者側のイベントの収入アイテムとして利用することもできる。

　（変形例３）
　また、取り扱う音声生成用パラメータのバリエーションを限定しておいてもよい。視聴者端末１０の音声メタデータ生成部１２１は、視聴者の声の性質を、予め用意された音声生成用パラメータから選択し、音声メタデータに含める。これにより、サーバ２０では、視聴者毎に音声データを生成する処理負荷が軽減される。サーバ２０の音声メタデータ解析部２２１は、例えば発声した視聴者のうち、音声生成用パラメータ毎の人数をカウントし、視聴者音声データ生成部２２２において、予め用意された音声生成用パラメータと人数別の音声データを用いて、視聴者音声データを生成する。

　また、このように予め用意された音声生成用パラメータから選択する処理と、視聴者の声の性質を用いる処理との、両方を行うようにしてもよい。この場合、例えば配信提供者側のイベントの収入アイテムとして、視聴者の声の性質を反映させる機能を特定の視聴者にのみ販売してもよい。

　＜４－４．視聴環境に応じた視聴者音声データの生成＞
　音声メタデータには、上述した発声音の有無と、視聴者の発声した音声の大きさ情報を含めてもよい。この場合、サーバ２０は、視聴者が発声した実際の声の大きさ情報を考慮して視聴者音声データを生成できる。ここで、視聴環境によっては大きな声が出せず、声の大きさが控えめになる場合もある。大きな声が出せない視聴環境の視聴者が多い場合、生成される視聴者音声データも声の大きさが控えめになってしまう。そこで、視聴者端末１０において、予め視聴者の最大音量値（視聴者が出せる最大の声の大きさ）を計測しておき、音声メタデータに含めるようにしてもよい。視聴者端末１０の音声メタデータ生成部１２１は、例えば発声音の有無を示す情報に加えて、実際の発声音の大きさを示す情報と、予め計測した最大音量値を示す情報を、音声メタデータに含めて、サーバ２０に送信する。

　なお、ここでは実測する場合について説明したが、本実施形態はこれに限定されず、例えば最大音量値は、視聴者が自ら設定してもよい。また、音声メタデータ生成部１２１は、イベントにおいて最も声が大きくなると想定される特定のタイミング（例えば、音楽ライブならばアーディストが登場するタイミング等）で計測された値を予め取得し、最大音量値として利用してもよい。

　そして、サーバ２０の視聴者音声データ生成部２２２では、各音声メタデータに基づいて視聴者毎に音声データを生成する際に、最大音量値を考慮して、ユーザが実際に発した声の大きさよりも大きく設定してもよい。また、視聴者音声データ生成部２２２は、視聴者音声データ生成部２２２で生成可能な音声データの最大音量設定値Ａを設定しておき、音声メタデータの最大音量値が最大音量設定値Ａと同じになるように適宜調整してもよい。

　＜４－５．同じ場所にいる視聴者の人数に応じた視聴者音声データの生成＞
　上述した各具体例では、視聴者端末１０が生成する音声メタデータの対象となる視聴者は一人であると想定していた。しかし、家族や友達と一緒に数人で視聴する場合もある。この場合は、例えば、視聴者端末１０において、音声認識やカメラ等で、視聴している人を認識した上で人数分の音声メタデータ生成する手法も可能である。また、音声メタデータに、人数を示すfieldを追加して人数を示し、その他は１人分の情報にまとめてしまってもよい。

　また、音声メタデータに性別情報を含める場合、男女が含まれていることを示す情報や、男女比の割合を示す情報を用いてもよい。

　サーバ２０の音声メタデータ解析部２２１は、１つの音声メタデータに人数を示す情報が含まれている場合、視聴者のカウントを１ではなく、その人数でカウントする処理を行う。

　＜４－６．仮想的な座席エリアに応じた視聴者音声データの生成＞
　音声メタデータには、イベント会場での仮想的な座席エリア（視聴位置）を示す情報を含めてもよい。実際の音楽ライブなどでは、視聴位置もイベントを楽しむ１つの要素であり、また、演者も視聴位置に紐付けたリアクションを求めたりする場合がある（例えば演者が２階席の観客に声援するように呼び掛ける等）。仮想的な座席エリアは、予め視聴者毎に設定されていてもよいし、視聴者が任意のエリアを選択してもよい。視聴者端末１０は、例えば発声音の有無を示す情報と、仮想的な座席エリアを示す情報を、音声メタデータに含める。

　サーバ２０の音声メタデータ解析部２２１は、仮想的な座席エリア毎に、発声した視聴者の人数をカウントし、視聴者音声データ生成部２２２において、仮想的な座席エリア毎に、人数に応じた音声データを選択し、視聴者音声データを生成する。そして、サーバ２０の制御部２２０は、仮想的な座席エリアの情報を対応付けて、生成した視聴者音声データをイベント会場装置３０に送信する。イベント会場装置３０は、イベント会場の観客席に設置された複数のスピーカに対して、各スピーカの位置に対応する仮想的な座席エリアの視聴者音声データを再生するよう制御する。これにより、演者は、観客の位置毎の歓声を把握することができる。

　なお、視聴者音声データ生成部２２２は、各音声メタデータに基づいて視聴者毎に音声データを生成し、これを仮想的な視聴エリア毎にまとめて視聴者音声データを生成してもよい。

　また、サーバ２０は、仮想的な座席エリアの情報を対応付けた視聴者音声データを各視聴者端末１０に送信してもよい。各視聴者端末１０では、視聴者音声データを再生する際、各視聴者音声データの仮想的な座席エリアの情報に基づいて、各々を仮想的な座席エリアに対応する位置に音源定位する処理を行ってもよい。これにより、視聴者も実際の会場での座席で視聴する体験と同じ雰囲気を体験することが可能になる。

　＜４－７．収音部の有効／無効に応じた視聴者音声データの生成＞
　上述した各具体例では、収音部１４０からの入力情報（収音データ）に基づいて、音声メタデータを生成している。しかし、視聴者端末１０によっては、収音部１４０が設けられていない、接続されていない場合があり、また、環境により静かに視聴するしかない視聴者が存在する場合もある。この場合、サーバ２０で生成する視聴者音声データが、実際の視聴者数より少ない人数の歓声となってしまう可能性がある。

　そこで、音声メタデータに、収音部１４０に関する情報を含める。例えば、収音部１４０に有効性（ＯＮ／ＯＦＦ）の情報を含める。これにより、サーバ２０の視聴者音声データ生成部２２２は、例えば、収音部１４０がＯＮ（有効、利用できる状態）の視聴者における発声人数の割合に基づいて、収音部１４０がＯＦＦ（無効、利用できない状態）の視聴者においても同様の割合が発声人数であるとみなして、視聴者音声データを生成する。これにより、収音部１４０が使えないユーザ（声を出せないユーザ）の数も考慮して視聴者音声データを生成することができる。なお、収音部１４０がＯＦＦの視聴者に関してみなす情報は発声人数に限らず、例えば性別の割合、歓声の種類、声の大きさ、声の性質等も、収音部１４０がＯＮの視聴者の音声メタデータを適宜適用してもよい。

　また、環境により静かに視聴するしかない視聴者が存在する場合を考慮し、視聴者端末１０は、カメラにより撮像した視聴者の動きを解析して、解析結果を音声メタデータに含めてもよい。例えば、声が出せない環境のため、盛り上がりの気持ちを小さな手拍子（実際には叩かない手拍子等）や手を振る行動で示す場合も想定される。視聴者端末１０は、このような視聴者の動きを画像解析により把握し、発声音：有り、歓声の種類「喜び」等と判断して音声メタデータを生成してもよい。

　＜４－８．イベントの場面に応じた視聴者音声データの生成＞
　例えば、音楽ライブの場合、曲の途中はなるべく曲を聴くことに集中させたいため、視聴者の歓声は小さい方が好ましい場合もある。一方で、曲間は演者や観客が盛り上がり状況を確認するタイミングともいえる。また、スポーツイベントにおいても、プレーヤーがプレイするタイミングでは静かにすることがマナーの競技もあれば、手拍子などをプレーヤーが求める競技もある。このように、イベントの場面毎に、望ましい音声の大きさが異なり、さらには歓声よりも手拍子が好ましい場合もある。

　そこで、サーバ２０の視聴者音声データ生成部２２２は、イベントの場面に応じて、生成する視聴者音声データの音量や、視聴者音声データの種類（歓声、手拍子等）を変更してもよい。どの場面でどのような音声データを生成するかは、リアルタイムにサーバ側で制御してもよいし、事前に設定された時刻で変えてもよいし、演者側の音声に応じて変えてもよい。図５は、イベントの場面に応じて視聴者音声データを変更する制御について説明する図である。図５に示すように、例えばイベントの演奏時には「種類：手拍子」、「音量：小」に変更し、トークの時には「種類：歓声」、「音量：大」に変更してもよい。このように、視聴者音声データを用いてイベントを演出することができる。

　＜４－９．ラベリングに応じた視聴者音声データの生成＞
　本実施形態では、視聴者が属する分類のラベリング情報を設定することで、視聴者毎にカスタマイズした視聴者音声データを提供することが可能となる。すなわち、視聴者毎に、視聴者と同じ分類のラベリング情報に対応する視聴者音声データを強調させて提供することができる。

　例えば、視聴者端末１０の音声メタデータ生成部１２１は、サッカーの試合で応援するチームの情報を、ラベリング情報として音声メタデータに追加する。次いで、サーバ２０の視聴者音声データ生成部２２２は、ラベリング情報毎に視聴者音声データを生成する。そして、サーバ２０の制御部２２０は、視聴者と同じラベリング情報の視聴者音声データを、当該視聴者の視聴者端末１０に送信する。これにより、視聴者は、同じサッカーチームを応援している人たちの声援をメインで聞くことができ、応援するチームのサポータの中で試合を見ているような体験が可能になる。サッカーチームに限らず、例えば音楽ライブにおいても、注目するアーディストの情報をラベリング情報として音声メタデータに追加することで、そのアーディストへの声援が強調された視聴者音声データを視聴者に提供することができる。なお、視聴者音声データ生成部２２２は、ラベリング情報毎に、当該ラベリング情報の視聴者音声データを強調した（音量を大きくした）全体の視聴者音声データを生成してもよい。

　以下、図６を参照してラベリング情報を用いた音声データ生成処理について説明する。図６は、本実施形態によるラベリング情報を用いた音声データ生成処理の流れの一例を示すシーケンス図である。

　図６に示すように、まず、視聴者単又宇１０は、視聴におけるラベリング情報を設定する（ステップＳ２０３）。ラベリング情報は、視聴者による選択に基づいて設定されてもよい。

　次に、視聴者端末１０は、収音部１４０から収音データ（入力情報）を取得する（ステップＳ２０６）。

　次に、視聴者端末１０は、入力情報（収音データ）に基づいて音声メタデータを生成し、さらにこれにラベリング情報を含め（ステップＳ２０９）、音声メタデータをサーバ２０に送信する（ステップＳ２１２）。

　続いて、ステップＳ２１５～Ｓ２２１において、図３のステップＳ１１２～Ｓ１１８に示す処理と同様の処理を行う。すなわち、サーバ２０の制御部２２０は、１以上の視聴者端末１０から取得した音声メタデータに基づいて、視聴者音声データを生成する。

　次に、制御部２２０は、同じラベリング情報の音声メタデータのみを利用した視聴者音声データも各々生成する（ステップＳ２２４）。

　そして、サーバ２０は、（イベント会場装置３０から受信した）イベント会場の音声データと共に、各視聴者のラベリング情報と同じラベリング情報に基づく視聴者音声データを各視聴者端末１０に送信する（ステップＳ２２７）。サーバ２０は、視聴者のラベリング情報と同じラベリング情報に基づく視聴者音声データのみを視聴者端末１０に送信してもよいし、同じラベリング情報に基づく視聴者音声データが強調された全体の視聴者音声データを生成してこれを視聴者端末１０に送信してもよい。視聴者端末１０では、イベント会場の音声データと、視聴者音声データの再生が行われる（ステップＳ２３３）。

　また、サーバ２０は、視聴者音声データをイベント会場装置３０に送信する（ステップＳ２３０）。かかる視聴者音声データは、上記ステップＳ２２１で生成された音声データである。イベント会場装置３０は、イベント会場に設置されたスピーカ等で視聴者全体の音声データの再生を行う（ステップＳ２３６）。

　以上、ラベリング情報を用いた音声データ生成処理について説明した。なお、図６に示す動作処理は一例であって、本実施形態はこれに限定されない。

　＜４－１０．音声データと音声メタデータの併用＞
　本実施形態のイベント配信は、個人向けの配信に限定されず、パブリックビューイングのように数千人～数万人が居る会場に配信する場合もある。パブリックビューイング会場の音声データは、会場の収音した音声データをそのままサーバ２０に送信し、その他の個人視聴者の音声データ（音声メタデータに基づいて生成された音声データ）と合成してもよい。パブリックビューイング会場は数か所であることが想定され、また、数千～数万人規模の音声を１つの音声データとすることができるため、通信容量や処理量の負荷は、数千～数万人分の音声データを個別に送信、処理する場合に比べて大きくないと言える。

　このように、本実施形態では、音声データと音声情報メタデータの併用が可能である。

　また、特定の個人視聴者（例えばプレミアムチケットを購入した視聴者）のみは、発声音を収音した音声データをサーバ２０に送信できるようにしてもよい。サーバ２０の処理量を考慮して、音声データを送信できる視聴者数を予め調整することで、大きな遅延が生じない程度に様々なサービスを視聴者に提供することができる。

　＜４－１１．アーカイブ配信での音声メタデータの利用＞
　上述した各具体例は、いずれもリアルタイムでイベント配信を行う、所謂ライブ配信を想定しているが、本実施形態はこれに限定されず、かかるイベント配信を後日アーカイブ配信することも想定される。

　この場合、サーバ２０の制御部２２０は、ライブ配信時に各視聴者端末１０から取得した音声メタデータも記憶しておき、アーカイブ配信時に、ライブ配信時には利用していなかった音声メタデータを利用して視聴者音声データを生成し、配信してもよい。音声データには、発声音の有無、性別、感情、声の性質、声の大きさ、最大音量値、人数、仮想的な座席エリア、収音部１４０の有効性、ラベリング情報等、上述した様々な情報が含まれ得る。このうち、ライブ配信時には処理負荷等を考慮して少なくとも一部（例えば発声音の有無のみ）を利用して視聴者音声データを生成して配信し、アーカイブ配信時には、その他の様々な情報を適宜利用して、視聴者音声データを生成して配信してもよい。

　＜＜５．補足＞＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、サーバ２０から視聴者端末１０に送信されるイベント会場の音声データと、視聴者音声データは、別の音源として生成され、ライブ配信やアーカイブ配信において、視聴者が任意に一方の音声データを消して再生することも可能である。

　また、上述した各具体例は、適宜組み合わされてもよい。また、音声メタデータには、上述した発声音の有無、性別、感情、声の性質、声の大きさ、最大音量値、人数、仮想的な座席エリア、収音部１４０の有効性、ラベリング情報等の少なくともいずれか１以上が含まれていてもよい。

　また、音声メタデータに含まれる他の情報として、発声音の時間的長さも含まれ得る。例えば一瞬の発声であったか、ある程度の長さのある発声音であったか等の情報が含まれ得る。

　また、上述したサーバ２０、視聴者端末１０に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、サーバ２０、視聴者端末１０の機能を発揮させるための１以上のコンピュータプログラムも作成可能である。また、当該１以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部を備える、情報処理装置。
（２）
　前記音声メタデータは、リアルタイムで開催されているイベントのデータを配信している際における、前記視聴者の発声音を収音する収音部による収音データの解析結果に基づいて生成される、前記（１）に記載の情報処理装置。
（３）
　前記音声メタデータは、前記発声音の有無を示す情報を含み、
　前記制御部は、前記発声音の有無を示す情報に基づいて発声人数をカウントし、予め用意された人数別音声データのうち、前記カウントした人数に近い音声データを選択し、前記視聴者音声データを生成する、前記（２）に記載の情報処理装置。
（４）
　前記音声メタデータは、前記発声音を発した視聴者の性別を示す情報を含み、
　前記制御部は、前記発声音を発した視聴者の性別を示す情報に基づいて、予め用意された性別別音声データのうち、前記性別に対応する音声データを選択し、前記視聴者音声データを生成する、前記（２）に記載の情報処理装置。
（５）
　前記音声メタデータは、前記発声音の解析結果により判断される感情を示す情報を含み、
　前記制御部は、前記感情を示す情報に基づいて、予め用意された感情別音声データのうち、前記感情に対応する音声データを選択し、前記視聴者音声データを生成する、前記（２）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記音声メタデータは、前記発声音の解析結果により生成される、前記発声音の性質を示す情報を含み、
　前記制御部は、予め用意された音声データに、前記性質を反映させ、前記視聴者音声データを生成する、前記（２）～（５）のいずれか１項に記載の情報処理装置。
（７）
　前記音声メタデータは、前記発声音の性質として、視聴者が任意に設定した性質を示す情報を含み、
　前記制御部は、予め用意された音声データに、前記性質を反映させ、前記視聴者音声データを生成する、前記（２）～（５）のいずれか１項に記載の情報処理装置。
（８）
　前記音声メタデータは、前記発声音の性質として、予め用意された性質バリエーションの中から選択した性質を示す情報を含み、
　前記制御部は、予め用意された音声データのうち、前記性質が反映された音声データを選択し、前記視聴者音声データを生成する、前記（２）～（５）のいずれか１項に記載の情報処理装置。
（９）
　前記音声メタデータは、前記発声音の解析結果により判別される、前記発声音の大きさを示す情報をさらに含み、
　前記制御部は、さらに各視聴者の前記発声音の大きさを反映させて、前記視聴者音声データを生成する、前記（２）～（８）のいずれか１項に記載の情報処理装置。
（１０）
　前記音声メタデータは、前記発声音を発した視聴者の最大音量値の情報をさらに含み、
　前記制御部は、さらに各視聴者の最大音量値を反映させて、前記視聴者音声データを生成する、前記（９）に記載の情報処理装置。
（１１）
　前記音声メタデータは、前記発声音を発した視聴者の最大音量値の情報をさらに含み、
　前記制御部は、予め設定された最大音量設定値と同じ大きさに前記最大音量値を調整して、前記視聴者音声データを生成し、出力する、前記（９）に記載の情報処理装置。
（１２）
　前記音声メタデータは、前記発声音を発した、同じ場所に居る視聴者の人数の情報を含み、
　前記制御部は、予め用意された人数別音声データのうち、前記人数に近い音声データを選択し、前記視聴者音声データを生成する、前記（２）に記載の情報処理装置。
（１３）
　前記音声メタデータは、前記発声音を発した視聴者の仮想的な座席エリアを示す情報をさらに含み、
　前記制御部は、さらに各視聴者の仮想的な座席エリア毎に、前記視聴者音声データを生成する、前記（２）～（１１）のいずれか１項に記載の情報処理装置。
（１４）
　前記音声メタデータは、前記発声音を収音する収音部が有効であるか否かを示す情報をさらに含み、
　前記制御部は、前記収音部が有効である各視聴者における発声人数の割合を、前記収音部が無効である各視聴者におけるみなし発声人数の割合に適用した上で、発声人数をカウントし、予め用意された人数別音声データのうち、前記カウントした発声人数に近い音声データを選択し、前記視聴者音声データを生成する、前記（２）～（１３）のいずれか１項に記載の情報処理装置。
（１５）
　前記音声メタデータは、視聴者が属する分類のラベリング情報をさらに含み、
　前記制御部は、前記視聴者音声データを分類毎に生成し、前記視聴者の分類に対応する視聴者音声データを前記視聴者の情報処理端末に出力する、前記（２）～（１４）のいずれか１項に記載の情報処理装置。
（１６）
　前記制御部は、前記各視聴者に配信するイベントの場面に合わせて、前記生成する視聴者音声データの種類および音量の少なくともいずれかを変更する、前記（１）～（１５）のいずれか１項に記載の情報処理装置。
（１７）
　前記制御部は、前記生成した視聴者音声データを、前記情報処理端末と、イベント会場装置に出力する、前記（１）～（１６）のいずれか１項に記載の情報処理装置。
（１８）
　前記制御部は、パブリックビューイング会場から取得した音声データを、前記音声メタデータに基づいて生成した視聴者音声データと合成して、前記情報処理端末と、イベント会場装置に出力する、前記（１）～（１７）のいずれか１項に記載の情報処理装置。
（１９）
　プロセッサが、
　視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行うことを含む、情報処理方法。
（２０）
　コンピュータを、
　視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部として機能させるプログラムが記憶された、記憶媒体。

　１０　視聴者端末
　１１０　通信部
　１２０　制御部
　　１２１　音声メタデータ生成部
　１３０　表示部
　１４０　収音部
　１５０　音声出力部
　１６０　記憶部
　２０　管理サーバ
　２１０　通信部
　２２０　制御部
　　２２１　音声メタデータ解析部
　　２２２　視聴者音声データ生成部
　２３０　記憶部

Claims

　視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部を備える、情報処理装置。
　前記音声メタデータは、リアルタイムで開催されているイベントのデータを配信している際における、前記視聴者の発声音を収音する収音部による収音データの解析結果に基づいて生成される、請求項１に記載の情報処理装置。
　前記音声メタデータは、前記発声音の有無を示す情報を含み、
　前記制御部は、前記発声音の有無を示す情報に基づいて発声人数をカウントし、予め用意された人数別音声データのうち、前記カウントした人数に近い音声データを選択し、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音を発した視聴者の性別を示す情報を含み、
　前記制御部は、前記発声音を発した視聴者の性別を示す情報に基づいて、予め用意された性別別音声データのうち、前記性別に対応する音声データを選択し、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音の解析結果により判断される感情を示す情報を含み、
　前記制御部は、前記感情を示す情報に基づいて、予め用意された感情別音声データのうち、前記感情に対応する音声データを選択し、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音の解析結果により生成される、前記発声音の性質を示す情報を含み、
　前記制御部は、予め用意された音声データに、前記性質を反映させ、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音の性質として、視聴者が任意に設定した性質を示す情報を含み、
　前記制御部は、予め用意された音声データに、前記性質を反映させ、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音の性質として、予め用意された性質バリエーションの中から選択した性質を示す情報を含み、
　前記制御部は、予め用意された音声データのうち、前記性質が反映された音声データを選択し、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音の解析結果により判別される、前記発声音の大きさを示す情報をさらに含み、
　前記制御部は、さらに各視聴者の前記発声音の大きさを反映させて、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音を発した視聴者の最大音量値の情報をさらに含み、
　前記制御部は、さらに各視聴者の最大音量値を反映させて、前記視聴者音声データを生成する、請求項９に記載の情報処理装置。
　前記音声メタデータは、前記発声音を発した視聴者の最大音量値の情報をさらに含み、
　前記制御部は、予め設定された最大音量設定値と同じ大きさに前記最大音量値を調整して、前記視聴者音声データを生成し、出力する、請求項９に記載の情報処理装置。
　前記音声メタデータは、前記発声音を発した、同じ場所に居る視聴者の人数の情報を含み、
　前記制御部は、予め用意された人数別音声データのうち、前記人数に近い音声データを選択し、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音を発した視聴者の仮想的な座席エリアを示す情報をさらに含み、
　前記制御部は、さらに各視聴者の仮想的な座席エリア毎に、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、前記発声音を収音する収音部が有効であるか否かを示す情報をさらに含み、
　前記制御部は、前記収音部が有効である各視聴者における発声人数の割合を、前記収音部が無効である各視聴者におけるみなし発声人数の割合に適用した上で、発声人数をカウントし、予め用意された人数別音声データのうち、前記カウントした発声人数に近い音声データを選択し、前記視聴者音声データを生成する、請求項２に記載の情報処理装置。
　前記音声メタデータは、視聴者が属する分類のラベリング情報をさらに含み、
　前記制御部は、前記視聴者音声データを分類毎に生成し、前記視聴者の分類に対応する視聴者音声データを前記視聴者の情報処理端末に出力する、請求項２に記載の情報処理装置。
　前記制御部は、前記各視聴者に配信するイベントの場面に合わせて、前記生成する視聴者音声データの種類および音量の少なくともいずれかを変更する、請求項１に記載の情報処理装置。
　前記制御部は、前記生成した視聴者音声データを、前記情報処理端末と、イベント会場装置に出力する、請求項１に記載の情報処理装置。
　前記制御部は、パブリックビューイング会場から取得した音声データを、前記音声メタデータに基づいて生成した視聴者音声データと合成して、前記情報処理端末と、イベント会場装置に出力する、請求項１に記載の情報処理装置。
　プロセッサが、
　視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行うことを含む、情報処理方法。
　コンピュータを、
　視聴者の発声音に関する情報を示す音声メタデータを１以上の情報処理端末からリアルタイムで取得し、取得した音声メタデータに基づいて、予め用意された音声データを用いて出力用の視聴者音声データを生成する制御を行う制御部として機能させるプログラムが記憶された、記憶媒体。