WO2023026555A1

WO2023026555A1 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: WO2023026555A1
Application number: PCT/JP2022/013429
Authority: WO
Inventors: 宏一郎高島
Original assignee: ソニーグループ株式会社
Priority date: 2021-08-25
Filing date: 2022-03-23
Publication date: 2023-03-02

Abstract

情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法を提供する。複数音源各々の出力音声の調整処理を実行する第１出力音声調整部と、第１出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第１出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第２出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。

Description

情報処理装置、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。具体的には、例えば送信端末が複数音源からの出力音の合成音を生成して送信し、受信端末で合成音を再生する構成において、各音源の出力音のバランスなどを自動調整して送信する制御等を行う情報処理装置、および情報処理方法、並びにプログラムに関する。

　近年、スマホ（スマートフォン）やＰＣ、ゲーム端末等の情報処理装置を利用した動画配信や、ゲームアプリ（アプリケーション）の実況を伴うゲーム配信、あるいは音楽コンテンツの配信など、様々なコンテンツ配信処理が行われている。

　このようなネットワークを介したコンテンツ配信の多くは、画像データと音声データを併せて配信する。例えば、あるユーザがスマホ（スマートフォン）やＰＣ、ゲーム端末等の情報処理装置を利用してゲームアプリの実況データを配信する場合、ゲームアプリのＢＧＭなどのアプリ音声と、ゲーム実行者であるユーザの声を合成（ミキシング）して配信する処理が行われる。

　さらに、配信コンテンツであるゲーム実況コンテンツを受信し視聴する視聴ユーザが視聴端末でゲーム実況に対する応援コメントなどをテキスト入力し、このテキスト入力データを、ネットワークを介してゲーム配信端末に送信する処理が行われる場合がある。

　視聴端末側で入力されたテキストデータはネットワークを介してゲーム実行端末が受信する。
　ゲーム実行端末は、受信テキストを音声データに変換してコメント音声を生成し、生成したコメント音声をゲームアプリ音声や、ゲーム実行ユーザの声とともに合成（ミキシング）して配信する処理が行われる。

　この場合、視聴端末側では、ゲームアプリのＢＧＭなどのアプリ音声と、ゲーム実行者であるユーザの声、さらに、コメント音声、これら３種類の音声の合成音声が再生されることになる。
　このような複数の音声の合成音を再生する場合、合成音声に含まれる各音声の音量バランスが悪いと、１つの音源からの大きな音声によって、他の音源の音声データが聞き取れない場合がある。

　なお、複数音源の合成処理、再生処理について開示した従来技術として、例えば、特許文献１（国際公開ＷＯ２０１８／０９６９５４号公報）がある。
　特許文献１（国際公開ＷＯ２０１８／０９６９５４号公報）には、例えばオーケストラなど、複数の楽器の演奏データを再生する構成において、各楽器の位置に応じた再生音を生成する構成を開示している。

　しかし、上記の従来技術は、各音源（楽器）の位置を反映した再生音の生成を実現するものであり、各音源の音量の調整処理については言及していない。

　上述したように、ゲームアプリの実況を配信する場合、ゲームアプリのＢＧＭなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して配信することになる。このような複数音源の出力音を合成して配信する場合に各音源の出力音の音量バランスが悪いと、１つの音源からの大きな音声によって、他の音源の音声が聞き取れないといった事態が発生する可能性がある。

国際公開ＷＯ２０１８／０９６９５４号公報

　本開示は、例えば、上記の問題点に鑑みてなされたものであり、例えば送信端末が複数音源からの出力音の合成音を生成して送信し、受信端末で合成音を再生する構成において、各音源の出力音のバランスなどを自動調整して送信する制御等を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第１出力音声調整部と、
　前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
　前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
　前記第１出力音声調整部は、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置にある。

　さらに、本開示の第２の側面は、
　コンテンツを受信する通信部と、
　前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
　前記出力音声調整部は、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置にある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　第１出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第１出力音声調整ステップと、
　音声合成部が、前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
　通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
　前記第１出力音声調整ステップにおいて、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法にある。

　さらに、本開示の第４の側面は、
　情報処理装置において実行する情報処理方法であり、
　通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
　出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
　前記出力音声調整ステップにおいて、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　第１出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第１出力音声調整ステップと、
　音声合成部に、前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
　通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
　前記第１出力音声調整ステップにおいて、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラムにある。

　さらに、本開示の第６の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
　出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
　前記出力音声調整ステップにおいて、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
　具体的には、例えば、複数音源各々の出力音声の調整処理を実行する第１出力音声調整部と、第１出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第１出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第２出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。
　これらの処理により、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

情報処理装置を利用したコンテンツ配信処理について説明する図である。情報処理装置を利用したコンテンツ配信処理における音声データの合成と送信、再生処理の一例について説明する図である。情報処理装置とサーバを利用したコンテンツ配信処理について説明する図である。情報処理装置（送信端末）の構成例（実施例１）について説明する図である。情報処理装置（送信端末）の第１出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）の構成例（実施例２）について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）が配信するコンテンツが音楽コンテンツである場合の配信処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）の構成例（実施例３）について説明する図である。情報処理装置（送信端末）のシーン判別部が実行するシーン判別処理の一例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）のシーン判別部が実行するシーン判別処理の一例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）のシーン判別部が実行するシーン判別処理の一例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）のシーン判別部が実行するシーン判別処理の一例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）のシーン判別部が実行するシーン判別処理の一例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（送信端末）の第１出力音声調整部と第２出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。情報処理装置（送信端末）の構成例（実施例４）について説明する図である。情報処理装置（受信端末）の構成例（実施例５）について説明する図である。情報処理装置（受信端末）の出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（受信端末）の出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置（受信端末）の出力音声調整部が実行する音声調整処理例について説明する図である。情報処理装置のハードウェア構成例を示す図である。

　以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
　１．情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について
　２．（実施例１）本開示の実施例１の情報処理装置（送信端末）の構成と処理について
　３．（実施例２）配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置（送信端末）の構成と処理について
　　３－１．（処理例１）配信コンテンツがゲームコンテンツである場合の音声出力調整処理
　　３－２．（処理例２）配信コンテンツが音楽コンテンツである場合の音声出力調整処理
　４．（実施例３）配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置（送信端末）の構成と処理について
　　４－１．（処理例１）シーン１＝ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
　　４－２．（処理例２）シーン２＝ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
　　４－３．（処理例３）シーン３＝クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
　　４－４．（処理例４）シーン４＝ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
　　４－５．（処理例５）シーン５＝配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
　５．（実施例４）実施例１～実施例３の処理をすべて実行可能な構成を有する情報処理装置（送信端末）の構成と処理について
　６．（実施例５）本開示の実施例５の情報処理装置（受信端末）の構成と処理について
　７．情報処理装置のハードウェア構成例について
　８．本開示の構成のまとめ

　　［１．情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について］
　まず、情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について説明する。

　本開示の情報処理装置は、具体的には、例えばスマホ（スマートフォン）やＰＣ、ゲーム端末等の情報処理装置であり、インターネット等のネットワークを介した通信を行うことが可能な装置である。

　本開示の情報処理装置は、例えば、ネットワークを介した動画配信や、ゲームアプリ（アプリケーション）の実行によるゲームコンテンツや音楽コンテンツなどのコンテンツ配信を行うことが可能な装置である。

　図１は、本開示の情報処理装置を利用した情報処理システム１０の一構成例を示す図である。
　図１には、本開示の情報処理装置の一例として、スマホ（スマートフォン）を利用した例を示している。

　情報処理装置（送信端末）１００は、配信ユーザ（例えばゲーム実行プレーヤー）２０の端末である。
　配信ユーザ（例えばゲーム実行プレーヤー）２０は、情報処理装置（送信端末）１００を利用してゲームアプリ（アプリケーション）を実行する。

　このゲームアプリ画面やゲームアプリ音声（アプリ音声）などからなるコンテンツは、インターネット等のネットワークを介して視聴ユーザ３０の情報処理装置（受信端末）２００に配信される。
　アプリ音声とは、例えば、アプリによって生成されるＢＧＭや、ゲームアプリ内で発生する様々な音声である。例えば図に示す例は自動車レースのゲームアプリであり、自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声が含まれる。

　さらに、情報処理装置（送信端末）１００を利用してゲームを実行するユーザ、すなわち配信ユーザ２０は、実行中のゲームの実況を行う。すなわち情報処理装置（送信端末）１００のマイクを介して、配信ユーザ２０の声を入力して、ゲームの説明や状況の説明などを行う。
　この配信ユーザ２０の声は、上述のアプリ音声とともに、視聴ユーザ３０側の情報処理装置（受信端末）２００に送信され、情報処理装置（受信端末）２００側で再生される。

　さらに、視聴ユーザ３０は、情報処理装置（受信端末）２００に、応援メッセージなどのコメントをテキスト入力することが可能であり、この入力コメントはネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１００に送信される。

　配信ユーザ２０側の情報処理装置（送信端末）１００は、情報処理装置（受信端末）２００からの受信コメントを音声データに変換してコメント音声を生成し、生成したコメント音声も、アプリ音声や、ゲーム実行ユーザの声とともに合成（ミキシング）して配信する。

　なお、視聴ユーザ３０は、情報処理装置（受信端末）２００のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１００に送信される。

　配信ユーザ２０側の情報処理装置（送信端末）１００は、情報処理装置（受信端末）２００から受信した音声コメントを、アプリ音声や、ゲーム実行ユーザの声とともに合成（ミキシング）して配信する。

　このように、ゲームアプリのＢＧＭなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して配信する場合、各音源の出力音の音量バランスが悪いと、情報処理装置（受信端末）２００側の視聴ユーザ３０は、各音源の音声を聞き取れなくなる場合がある。

　例えば、３種類の音源の中の１つの音源の音量が他の２つの音源の音量に比較して明らかに大きい場合、その大きな音源の音声によって、他の音源の音声データが聞き取れなくなる。

　図２を参照して具体例について説明する。
　図２において、配信ユーザ２０側の情報処理装置（送信端末）１００は、音声合成部において、
　（ａ）配信ユーザ音声
　（ｂ）アプリ音声（アプリＢＧＭなど）
　（ｃ）視聴ユーザコメント音声
　これらの３種類の音源の音声データを合成した合成音声を生成して、ネットワークを介して視聴ユーザ３０側の情報処理装置（受信端末）２００に送信する。

　視聴ユーザ３０側の情報処理装置（受信端末）２００では、配信ユーザ２０側の情報処理装置（送信端末）１００から受信した合成音声をスピーカやイヤホンを介して出力する。

　ここで、例えば、（ｂ）アプリ音声（アプリＢＧＭなど）の音量が、他の２つの音声（（ａ）配信ユーザ音声や（ｃ）視聴ユーザコメント音声）に比較して明らかに大きい場合、視聴ユーザ３０は、大きな音量のＢＧＭ音声によって、他の音源の音声データ、すなわち配信ユーザ音声や視聴ユーザコメントが聞き取れなくなる。

　本開示は、このような問題を解決するものである。
　例えば図１に示すような構成、すなわち、情報処理装置（送信端末）１００から複数音源の出力音の合成データを生成して送信し、情報処理装置（受信端末）２００で配信音声を再生する構成において、各音源の出力音のバランスを自動調整して送信、または再生する制御を行う。

　なお、図１の情報処理システム１０は、情報処理装置（送信端末）１００と複数の情報処理装置（受信端末）２００間で、直接、データ送受信を行うシステムの構成例であるが、例えば図３に示すように、ネットワーク上の管理サーバ５０を介してデータ送受信を行う構成としてもよい。

　図３に示す構成において、配信ユーザ２０側の情報処理装置（送信端末）１００は、データを管理サーバ５０に送信する。視聴ユーザ３０側の情報処理装置（受信端末）２００は、管理サーバ５０から、このデータを受信して視聴する。

　このようなシステム構成においても、配信ユーザ２０側の情報処理装置（送信端末）１００は、ゲームアプリの実行画面データと、ゲームアプリのＢＧＭなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して管理サーバ５０に送信する。視聴ユーザ３０側の情報処理装置（受信端末）２００は、管理サーバ５０から、この合成音声データを、画像データとともに受信して視聴する。

　このような構成においても、３種類の音源の中の１つの音源の音量が他の２つの音源の音量に比較して明らかにに大きい場合、その大きな音源の音声によって、他の音源の音声データが聞き取れなくなる場合がある。
　本開示は、このような問題を解決するものである。

　　［２．（実施例１）本開示の実施例１の情報処理装置（送信端末）の構成と処理について］
　次に、本開示の実施例１の情報処理装置（送信端末）１００の構成と処理について説明する。

　図４は、本開示の実施例１の情報処理装置（送信端末）１００の構成例を示す図である。
　図４に示すように、情報処理装置（送信端末）１００は、マイク（第１音源）１０１、アプリ音声再生部（第２音源）１０２、コメント音声再生部（第３音源）１０３、第１出力音声調整部１０４、音声合成部１０５、通信部１０６を有する。

　なお、図４に示す構成は、情報処理装置（送信端末）１００の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置（送信端末）１００は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ（スマートフォン）と同様の構成要素を有している。

　マイク（第１音源）１０１は、情報処理装置（送信端末）１００に備えられたマイクであり、例えば情報処理装置（送信端末）１００を利用してゲームアプリを実行中の配信ユーザ２０の声を入力して第１出力音声調整部１０４に入力する。

　なお、ここでは一例として、配信ユーザ２０は、情報処理装置（送信端末）１００において自動車レースのゲームアプリを実行しており、配信ユーザ２０は、このゲームアプリの説明や実況を行っているものとする。
　図４に示すように、マイク（第１音源）１０１に入力された配信ユーザ音声は第１出力音声調整部１０４に入力される。

　アプリ音声再生部（第２音源）１０２は、情報処理装置（送信端末）１００において実行中のアプリの再生音、図に示すアプリ音声を生成して第１出力音声調整部１０４に出力する。
　本例では、配信ユーザ２０は、情報処理装置（送信端末）１００において自動車レースのゲームアプリを実行しており、アプリ音声再生部（第２音源）１０２は、ゲームアプリによって生成されるＢＧＭや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第１出力音声調整部１０４に出力する。

　コメント音声再生部（第３音源）１０３は、情報処理装置（送信端末）１００から送信する画像や音声データを再生して視聴する視聴ユーザ３０のコメントを再生する。

　視聴ユーザ３０は、配信ユーザ２０側の情報処理装置（送信端末）１００から送信されるゲームアプリ実行画面や音声データを、視聴ユーザ３０側の情報処理装置（受信端末）２００で受信、再生しながら、情報処理装置（受信端末）２００に、応援メッセージなどのコメントをテキスト入力する。
　この入力コメントはネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１００に送信される。

　配信ユーザ２０側の情報処理装置（送信端末）１００のコメント音声再生部１０３は、情報処理装置（受信端末）２００から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声（視聴ユーザコメント音声）を第１出力音声調整部１０４に出力する。

　なお、視聴ユーザ３０は、情報処理装置（受信端末）２００のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１００に送信される。
　この場合、配信ユーザ２０側の情報処理装置（送信端末）１００のコメント音声再生部１０３は、情報処理装置（受信端末）２００から受信した音声コメントを、そのまま第１出力音声調整部１０４に出力する。

　次に、第１出力音声調整部１０４の実行する処理について説明する。
　第１出力音声調整部１０４は、以下の３つの音声データを入力する。
　（１）マイク（第１音源）１０１から配信ユーザ音声、
　（２）アプリ音声再生部（第２音源）１０２からアプリ音声、
　（３）コメント音声再生部（第３音源）１０３から視聴ユーザコメント音声、

　第１出力音声調整部１０４は、これら３つの音源からの３つの音声データを入力して、各音源の音声データの出力調整処理を行う。
　図５を参照して、第１出力音声調整部１０４が実行する出力調整処理の具体例について説明する。

　図５には、第１出力音声調整部１０４が入力する３つの音源の音声データ各々について、
　（ａ）調整前の音声データ特性、
　（ｂ）調整後の音声データ特性、
　これら、調整前後の音声特性データを示している。
　各音声データ特性は、横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図５の上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声の（ａ）調整前の音声データ特性と（ｂ）調整後の音声データ特性
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の（ａ）調整前の音声データ特性と（ｂ）調整後の音声データ特性
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声の（ａ）調整前の音声データ特性と（ｂ）調整後の音声データ特性
　これら３音源の調整前後の音声データ特性を示している。

　第１出力音声調整部１０４は、これら３音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行する。
　なお、図に示すように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性（＝グラフの曲線形状）は維持したまま、各音源の最大出力値を予め規定した調整目標レベル（Ｌｘ）に設定するように調整する。

　この調整処理により、３つの異なる音源からの出力（音量）がバランスされ、１つの音源の音量が他に比較して大きすぎて、１つの音源の音声のみが聞こえて他の音源の音声が聞き取れなくなるといった問題が低減される。
　すなわち、この調整処理により、３つの音声データの合成音を再生した場合、各音源の音声データをバランスよく聞き取ることができるようになる。

　第１出力音声調整部１０４は、図５に示す３つの音源に対応する（ｂ）調整後（第１出力音声調整部からの出力）の音声データ特性を持つ３つの調整後音声データを生成し、この調整後音声データを音声合成部１０５に出力する。

　音声合成部１０５は、第１出力音声調整部１０４が生成した３音源の調整音声データ、すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声の調整後の音声データ、
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整後の音声データ、
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声の調整後の音声データ、
　これら３音源の調整後の音声データを合成（ミキシング）する。

　図６を参照して、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例について説明する。

　図６には、音声合成部１０５の入出力データとして、
　（ａ）合成前（音声合成部１０５への入力）
　（ｂ）合成語（音声合成部１０５からの出力）
　これらのデータを示している。
　各グラフに示す音声データ特性は、横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　（ａ）合成前（音声合成部１０５への入力）のデータは、第１出力音声調整部１０４から入力する３つの音源の調整後音声特性データである。
　図６（ａ）の上から順に以下の３つの音源の調整後音声特性データを示している。
　（１）マイク（第１音源）１０１から入力した配信ユーザ音声の調整後音声特性データ
　（２）アプリ音声再生部（第２音源）１０２から入力したアプリ音声の調整後音声特性データ
　（３）コメント音声再生部（第３音源）１０３から入力した視聴ユーザコメント音声の調整後音声特性データ
　これら３音源の調整後音声データ特性を示している。

　なお、図６（ａ）合成前（音声合成部１０５への入力）として示す音声特性データ中、点線データは、第１出力音声調整部１０４における調整前の音声特性データであり、実線データが第１出力音声調整部１０４における調整処理後の音声特性データである。
　実線で示す第１出力音声調整部１０４における調整処理後の音声特性データ、すなわち最大出力が調整目標レベル（Ｌｘ）に調整されたデータが音声合成部１０５に対する入力データとなる。

　音声合成部１０５は、図６（ａ）の各グラフの実線データとして示す以下の各音声データ、すなわち、
　（１）マイク（第１音源）１０１から入力した配信ユーザ音声の調整後音声特性データ
　（２）アプリ音声再生部（第２音源）１０２から入力したアプリ音声の調整後音声特性データ
　（３）コメント音声再生部（第３音源）１０３から入力した視聴ユーザコメント音声の調整後音声特性データ
　これらの３音源の調整後音声データを合成（ミキシング）して１つの合成音声を生成する。

　図６（ｂ）には、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図６（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図６（ａ）のグラフに実線で示す調整後音声特性データを示す曲線である。
　図６（ｂ）に示すグラフから理解されるように、合成音声に含まれる３つの音源の各データの最大出力レベルはすべて調整目標レベル（Ｌｘ）に設定されている。
　すなわち３つの音源の出力は、平均化されており、突出した最大値を持つような音源データはない。
　従って、この合成音を再生した場合、３つの音源の音声データの音量レベルは、ほぼ同じレベルとなり、どれか１つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が解消されることになる。

　音声合成部１０５が生成した合成音声データは、通信部１０６を介して配信され、視聴ユーザ３０側の情報処理装置（受信端末）２００において再生される。

　視聴ユーザ３０側の情報処理装置（受信端末）２００において再生される合成音声データは、図６（ｂ）に示すグラフ内の３つの曲線によって示される３つの音源の調整後音声特性データによって構成される合成音声データである。
　すなわち、
　（１）マイク（第１音源）１０１から入力した配信ユーザ音声の調整後音声特性データ
　（２）アプリ音声再生部（第２音源）１０２から入力したアプリ音声の調整後音声特性データ
　（３）コメント音声再生部（第３音源）１０３から入力した視聴ユーザコメント音声の調整後音声特性データ
　これらの３つの音源の調整後音声データによって構成される合成音声データとなる。

　前述したように、合成音声に含まれる３つの音源各々の出力レベルの最大値は調整目標レベル（Ｌｘ）に調整されており、突出した最大値を持つような音源データがないように調整されている。従って、視聴ユーザ３０側の情報処理装置（受信端末）２００において再生される合成音声内の３つの音源の音声データの最大音量レベルは、ほぼ同じレベルとなり、どれか１つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が発生する可能性が低減され、いずれの音源の音声データも平均的に聞き取ることが可能となる。

　なお、上記実施例において、第１出力音声調整部１０４は、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う処理例を説明したが、第１出力音声調整部１０４は、この調整例に限らず、その他の調整処理を行う構成としてもよい。

　第１出力音声調整部１０４が実行するその他の調整例について図７、図８を参照して説明する。
　図７は、第１出力音声調整部１０４の実行する調整処理と、音声合成部１０５の実行する合成処理をまとめて示した図である。
　（ａ）第１出力部１０４の調整処理
　（ｂ）音声合成部１０５の合成処理
　これらの各処理を示している。

　図７（ａ）の第１出力部１０４の調整処理には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声の調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声の調整処理例
　これら３つの音源からの出力音声の調整処理例を示している。
　各グラフ上の点線データが調整前の音声特性データ（周波数－レベル特性）であり、実線データが調整後の音声特性データ（周波数－レベル特性）である。

　図から理解されるように、第１出力音声調整部１０４は、これら３音源の出力音声に対する調整処理として、各音声の最大出力を、各音源に対応させて予め規定した音源固有の調整目標レベル（Ｌｘ，Ｌｙ，Ｌｚ）に、それぞれ設定する調整処理を実行する。

　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声については、最大出力を、予め規定した配信ユーザ音声固有の調整目標レベル（Ｌｘ）に設定する調整処理を実行する。
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声については、最大出力を、予め規定したアプリ音声固有の調整目標レベル（Ｌｙ）に設定する調整処理を実行する。
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、最大出力を、予め規定した視聴ユーザコメント音声固有の調整目標レベル（Ｌｚ）に設定する調整処理を実行する。

　このように、第１出力音声調整部１０４は、これら３音源の出力音声に対する調整処理として、各音声の最大出力を、各音源に対応させて予め規定した固有の調整目標レベル（Ｌｘ，Ｌｙ，Ｌｚ）に、それぞれ設定する調整処理を実行する。

　図７（ｂ）には、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図７（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図７（ａ）のグラフに実線で示す調整後音声特性に相当する。
　図７（ｂ）に示すグラフから理解されるように、合成音声に含まれる３つの音源の各データの最大出力レベルは、各音源に対応させて予め規定した固有の調整目標レベル（Ｌｘ，Ｌｙ，Ｌｚ）に設定されている。

　この合成音を再生した場合、３つの音源の音声データの音量レベルの最大値は、調整前より減少しているため、どれか１つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が低減される。

　図８は、第１出力音声調整部１０４が実行する他の調整例について説明する図である。
　図８にも図７と同様、第１出力音声調整部１０４の実行する調整処理と、音声合成部１０５の実行する合成処理をまとめて示している。
　（ａ）第１出力部１０４の調整処理
　（ｂ）音声合成部１０５の合成処理
　これらの各処理を示している。

　図８（ａ）の第１出力部１０４の調整処理には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声の調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声の調整処理例
　これら３つの音源からの出力音声の調整処理例を示している。
　各グラフ上の点線データが調整前の音声特性データ（周波数－レベル特性）であり、実線データが調整後の音声特性データ（周波数－レベル特性）である。

　この図８に示す例は、第１出力音声調整部１０４は、３音源の出力音声に対する調整処理として、先に図７を参照して説明した調整処理と同様、各音声の最大出力を各音源固有の調整目標レベル（Ｌｘ，Ｌｙ，Ｌｚ）に設定する調整処理を実行するとともに、周波数の変化に応じた出力レベルの差分を減少させる調整処理を行う調整例である。

　すなわち、図８に示す例は、図７を参照して説明した調整処理に加え、以下の調整処理を行った例である。
　各音源の点線で示す調整前の音声特性データ（周波数－レベル特性）について、周波数の変化に応じた出力レベルの差分を減少させる調整処理を行い、曲線を均一化（フラット）になる方向に調整して、実線で示す調整後の音声特性データ（周波数－レベル特性）を生成している。

　このような周波数に応じた出力差分を減少させる調整を行うことで、特定周波数の大音量を抑制させることが可能となる。

　このように、図８に示す例は、第１出力音声調整部１０４は、３音源の出力音声に対する調整処理として、各音声の最大出力を各音源に対応させて予め規定した固有の調整目標レベル（Ｌｘ，Ｌｙ，Ｌｚ）に、それぞれ設定し、さらに周波数に応じた出力差分を減少させる調整処理を実行する。

　図８（ｂ）には、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図８（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図８（ａ）のグラフに実線で示す調整後音声特性に相当する。
　図８（ｂ）に示すグラフから理解されるように、合成音声に含まれる３つの音源の各データは、最大出力レベルが各音源対応の固有の調整目標レベル（Ｌｘ，Ｌｙ，Ｌｚ）に設定され、さらに周波数に応じた出力レベルの差分が減少している。

　この合成音を再生した場合、３つの音源の音声データの音量レベルの最大値は、調整前より減少し、さらに全周波数領域に渡りフラットな再生音が出力される。

　なお、上記実施例では、合成対象の音声データを以下の３つの音源の音声データとした例を説明した。
　（１）マイク（第１音源）１０１の入力音声
　（２）アプリ音声再生部（第２音源）１０２の再生音声
　（３）コメント音声再生部（第３音源）１０３の再生音声、

　配信ユーザ２０側の情報処理装置（送信端末）１００において合成、配信する音声データは、これら３つの音源の音声データに限られるものではない。例えば上記３つのうちの２つのみの音源の音声データの合成処理、配信処理を行う構成としてもよい。
　さらに、上記３つの音源以外の音源の音声データを合成、配信対象の音声データとして設定する構成も可能である。

　　［３．（実施例２）配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置（送信端末）の構成と処理について］
　次に、本開示の実施例２として、配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置（送信端末）の構成と処理について説明する。

　配信ユーザ２０は、情報処理装置（送信端末）を利用して様々なコンテンツを配信することができる。
　例えば、ゲームコンテンツ、音楽コンテンツ、教育コンテンツ等、様々な異なる種類のコンテンツ対応アプリを実行して配信することが可能である。
　以下に説明する実施例２は、配信コンテンツの種類に応じて異なる音声出力調整処理を実行する情報処理装置（送信端末）の実施例である。

　図９は、本開示の実施例２の情報処理装置（送信端末）１１０の構成例を示す図である。
　図９に示すように、情報処理装置（送信端末）１１０は、マイク（第１音源）１０１、アプリ音声再生部（第２音源）１０２、コメント音声再生部（第３音源）１０３、第１出力音声調整部１０４、音声合成部１０５、通信部１０６、さらに、コンテンツ種類判別部１１１、第２出力音声調整部１１２を有する。

　なお、図９に示す構成は、情報処理装置（送信端末）１１０の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置（送信端末）１１０は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ（スマートフォン）と同様の構成要素を有している。

　この第２実施例の情報処理装置（送信端末）１１０の構成は、先に図４を参照して説明した第１実施例の情報処理装置（送信端末）１００の構成に、コンテンツ種類判別部１１１と、第２出力音声調整部１１２を追加した構成である。

　マイク（第１音源）１０１は、情報処理装置（送信端末）１１０に備えられたマイクであり、例えば情報処理装置（送信端末）１１０を利用してゲームアプリを実行中の配信ユーザ２０の声を入力して第１出力音声調整部１０４に入力する。
　図９に示すように、マイク（第１音源）１０１に入力された配信ユーザ音声は第１出力音声調整部１０４に入力される。

　アプリ音声再生部（第２音源）１０２は、情報処理装置（送信端末）１１０において実行中のアプリの再生音、図に示すアプリ音声を生成して第１出力音声調整部１０４に出力する。
　例えば配信ユーザ２０が、情報処理装置（送信端末）１１０において自動車レースのゲームアプリを実行している場合、アプリ音声再生部（第２音源）１０２は、ゲームアプリによって生成されるＢＧＭや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第１出力音声調整部１０４に出力する。

　コメント音声再生部（第３音源）１０３は、情報処理装置（送信端末）１１０から送信する画像や音声データを再生して視聴する視聴ユーザ３０のコメントを再生する。

　視聴ユーザ３０は、配信ユーザ２０側の情報処理装置（送信端末）１１０から送信されるアプリ実行画面や音声データを、視聴ユーザ３０側の情報処理装置（受信端末）２００で受信、再生しながら、情報処理装置（受信端末）２００に、応援メッセージなどのコメントをテキスト入力する。
　この入力コメントはネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１１０に送信される。

　配信ユーザ２０側の情報処理装置（送信端末）１１０のコメント音声再生部１０３は、情報処理装置（受信端末）２００から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声（視聴ユーザコメント音声）を第１出力音声調整部１０４に出力する。

　なお、視聴ユーザ３０は、情報処理装置（受信端末）２００のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１００に送信される。
　この場合、配信ユーザ２０側の情報処理装置（送信端末）１１０のコメント音声再生部１０３は、情報処理装置（受信端末）２００から受信した音声コメントを、そのまま第１出力音声調整部１０４に出力する。

　次に、第１出力音声調整部１０４は、先に説明した実施例１と同様の各音源の出力音声の調整処理を実行する。
　すなわち、第１出力音声調整部１０４は、以下の３つの音声データを入力する。
　（１）マイク（第１音源）１０１から配信ユーザ音声、
　（２）アプリ音声再生部（第２音源）１０２からアプリ音声、
　（３）コメント音声再生部（第３音源）１０３から視聴ユーザコメント音声、

　第１出力音声調整部１０４は、これら３つの音源からの３つの音声データを入力して、各音源の音声データの出力調整処理を行う。
　第１出力音声調整部１０４は、例えば先に図５を参照して説明した調整処理を実行する。

　すなわち、第１出力音声調整部１０４は、上記３つの音源の出力音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行する。
　なお、先に図５を参照して説明したように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性（＝グラフの曲線形状）は維持したまま、各音源の最大出力値を予め規定した調整目標レベル（Ｌｘ）に設定するように調整する。

　この調整処理により、３つの異なる音源からの出力（音量）がバランスされ、１つの音源の音量が他に比較して大きすぎるといった問題が低減されることになる。

　第１出力音声調整部１０４は、図５に示す３つの音源に対応する（ｂ）調整後（第１出力音声調整部からの出力）の音声データ特性を持つ３つの調整後音声データを生成し、この調整後音声データを第２出力音声調整部１１２に出力する。

　第２出力音声調整部１１２は、先に説明した実施例１にはない音声出力調整部である。
　第２出力音声調整部１１２は、配信ユーザ２０が情報処理装置（送信端末）１１０において実行し、配信しているコンテンツの種類、例えばゲームコンテンツ、音楽コンテンツ、教育コンテンツ等、様々な異なる種類のコンテンツに応じた音声出力調整処理を実行する。

　第２出力音声調整部１１２は、コンテンツ種類判別部１１１から配信ユーザ２０が情報処理装置（送信端末）１１０において実行し、配信しているコンテンツの種類に関する情報を入力し、入力したコンテンツ種類に応じた出力音声調整処理を行う。

　コンテンツの種類とは、例えば、ゲームコンテンツ、音楽コンテンツ、教育コンテンツ等のコンテンツの内容に応じた種類である。ゲームコンテンツを、さらにゲーム内容に応じてバトル型コンテンツ、レース型コンテンツなどに分類してもよい。

　コンテンツ種類判別部１１１は、例えば、情報処理装置（送信端末）１１０において起動され実行中のコンテンツのタイトルやカテゴリ等の属性情報を情報処理装置（送信端末）１１０内のメモリから読み取り、コンテンツ種類を判別して第２出力音声調整部１１２に通知する。

　なお、コンテンツ種類判別部１１１は、情報処理装置（送信端末）１１０内のメモリからコンテンツのタイトルやカテゴリ等の属性情報を取得できない場合、情報処理装置（送信端末）１１０を利用中の配信ユーザ２０の属性情報（ハッシュタグ情報など）を情報処理装置（送信端末）１１０内のメモリから取得して、配信ユーザ２０が好んで実行するコンテンツの種類を判別して第２出力音声調整部１１２に通知する処理を行ってもよい。

　あるいは、情報処理装置（送信端末）１１０内のメモリ内に記録されている配信履歴データを読み取って、この配信履歴データから推定されるコンテンツの種類を判別して第２出力音声調整部１１２に通知する処理を行ってもよい。

　第２出力音声調整部１１２は、第１出力音声調整部１０４が調整した３つの音源の調整音声の各々に対して、コンテンツ種類判別部１１１から入力するコンテンツ種類に応じて各音源からの出力音声、具体的には第１出力音声調整部１０４において調整された出力音声に対して、さらに出力調整処理を実行する。

　図１０以下を参照して、第２出力音声調整部１１２が実行するコンテンツ種類に応じた出力調整処理と、音声合成部１０５が実行する音声合成処理の具体例について説明する。
　以下の２つの処理例について、順次、説明する。
　（処理例１）配信ユーザ２０が情報処理装置（送信端末）１１０を用いて実行、配信しているコンテンツがゲームコンテンツである場合の処理例
　（処理例２）配信ユーザ２０が情報処理装置（送信端末）１１０を用いて実行、配信しているコンテンツが音楽コンテンツである場合の処理例

　　［３－１．（処理例１）配信コンテンツがゲームコンテンツである場合の音声出力調整処理］
　まず、図１０、図１１を参照して、配信ユーザ２０が情報処理装置（送信端末）１１０を用いて実行、配信しているコンテンツがゲームコンテンツである場合に、第２出力音声調整部１１２が実行するコンテンツ種類に応じた出力調整処理と、音声合成部１０５が実行する音声合成処理の具体例について説明する。

　まず、図１０を参照して、配信コンテンツがゲームコンテンツである場合に実行される第１出力音声調整部１０４と、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図１０には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図１０には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図１０（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図１０（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図１０（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　なお、以下では、第１出力音声調整部１０４における音声出力調整を「第１調整」、第２出力音声調整部１１２における音声出力調整を「第２調整」と定義して説明する。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図１０（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、コンテンツ種類に応じた第２調整処理が実行される。

　図１０に示す例は、配信コンテンツ種類＝ゲームコンテンツである場合の調整処理例である。
　図１０（ｂ）が、配信コンテンツ種類＝ゲームコンテンツである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図１０（ｂ）に示すように、配信コンテンツ種類＝ゲームコンテンツである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理は行わない。
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理は行わない。

　このように、配信コンテンツ種類＝ゲームコンテンツである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理のみ実行し、アプリ音声、視聴ユーザコメント音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、コンテンツ種類＝ゲームコンテンツである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声のみに対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図１０（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図１１を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図１１には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図１１（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図１０を参照して説明したように、配信コンテンツ種類＝ゲームコンテンツである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図１１（ａ）の最上段に示す配信ユーザ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）マイク（第１音源）１０１から入力する配信ユーザ音声の調整前データ（細かい点線データ）
　（ｑ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　音声合成部１０５には、上記（ｒ）のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
　すなわち、マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ（実線データ）が入力される。

　図１１（ａ）の中段と下段に示すアプリ音声再生部（第２音源）１０２から入力するアプリ音声と、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図１１（ａ）の中段と下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図１１（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図１１（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図１１（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図１１（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　これらを示している。

　音声合成部１０５は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部１０６を介して配信する。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図１１（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。

　なお、図１０、図１１を参照して説明した処理例、すなわち、
　配信コンテンツ種類＝ゲームコンテンツ
　である場合における第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、配信コンテンツ種類＝ゲームコンテンツにおいて、上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図１０、図１１を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　　［３－２．（処理例２）配信コンテンツが音楽コンテンツである場合の音声出力調整処理］
　次に、図１２以下を参照して、配信ユーザ２０が情報処理装置（送信端末）１１０を用いて実行、配信しているコンテンツが音楽コンテンツである場合の音声出力調整処理例について説明する。

　図１２は、配信ユーザ２０が情報処理装置（送信端末）１１０を用いて音楽コンテンツ再生アプリを実行して、配信している例を示している。
　情報処理装置（送信端末）１１０には、様々な楽曲を演奏、歌唱するミュージシャン、歌手などのパフォーマンス画像が再生される。この画像に併せて音楽コンテンツの音声データも再生される。

　これら音楽コンテンツの画像、音声は、ネットワークを介して視聴ユーザ３０側の情報処理装置（受信端末）２００においても再生される。
　音楽コンテンツの音声は、配信ユーザ２０側の情報処理装置（送信端末）１１０のアプリ音声再生部（第２音源）１０２において再生されるアプリ音声である。

　ネットワークを介して配信される音声データは、このアプリ音声のみならず、マイク（第１音源）１０１から入力する配信ユーザ音声、さらに、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声がある。

　例えば図１２に示す配信ユーザ２０の発話である「元気がでる曲、みんなも聞いてね」、この配信ユーザ２０の発話は情報処理装置（送信端末）１１０のマイクを介して入力されアプリ音声とともに配信される。

　さらに、図１２に示す視聴ユーザ３０のコメントとして示す「この曲、最高」、このコメントは、視聴ユーザ３０が情報処理装置（受信端末）２００にテキスト入力するコメントである。入力テキストはネットワークを介して情報処理装置（送信端末）１１０が受信し、受信テキストを音声データに変換してコメント音声を生成する。生成されたコメント音声も、アプリ音声や、ゲーム実行ユーザの声とともに合成（ミキシング）して配信する処理が行われる。

　図９に示す情報処理装置（送信端末）１１０の第２出力音声調整部１１２は、配信コンテンツが音楽コンテンツである場合、この配信コンテンツ種類に応じて、上記３つの音源対応の音声データ（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）の出力調整処理を実行する。

　図１３、図１４を参照して、配信ユーザ２０が情報処理装置（送信端末）１１０を用いて実行、配信しているコンテンツが音楽コンテンツである場合に、第２出力音声調整部１１２が実行するコンテンツ種類に応じた出力調整処理と、音声合成部１０５が実行する音声合成処理の具体例について説明する。

　まず、図１３を参照して、配信コンテンツが音楽コンテンツである場合に実行される第１出力音声調整部１０４と、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図１３には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図１３には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図１３（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図１３（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図１３（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図１３（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、コンテンツ種類に応じた第２調整処理が実行される。

　図１３に示す例は、配信コンテンツ種類＝音楽コンテンツである場合の調整処理例である。
　図１３（ｂ）が、配信コンテンツ種類＝音楽コンテンツである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図１３（ｂ）に示すように、配信コンテンツ種類＝音楽コンテンツである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理は行わない。
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理は行わない。

　このように、配信コンテンツ種類＝音楽コンテンツである場合、第２出力音声調整部１１２は、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理のみ実行し、配信ユーザ音声、視聴ユーザコメント音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、コンテンツ種類＝音楽コンテンツである場合、第２出力音声調整部１１２は、アプリ音声再生部（第２音源）１０２から入力するアプリ音声のみに対して、出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図１３（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図１４を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図１４には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図１４（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図１３を参照して説明したように、配信コンテンツ種類＝音楽コンテンツである場合、第２出力音声調整部１１２は、アプリ音声再生部（第２音源）１０２から入力するアプリ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図１４（ａ）の中段に示すアプリ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整前データ（細かい点線データ）
　（ｑ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　音声合成部１０５には、上記（ｒ）のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
　すなわち、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ（実線データ）が入力される。

　図１４（ａ）の上段と下段に示すマイク（第１音源）１０１から入力する配信ユーザ音声と、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図１４（ａ）の上段と下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図１４（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図１４（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図１４（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図１４（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理が実行された第１調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理がなされた第２調整後データ
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　これらを示している。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図１４（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。

　なお、図１３、図１４を参照して説明した処理例、すなわち、
　配信コンテンツ種類＝音楽コンテンツ
　である場合における第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、配信コンテンツ種類＝音楽コンテンツの場合に上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図１３、図１４を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　　［４．（実施例３）配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置（送信端末）の構成と処理について］
　次に、本開示の実施例３として、配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置（送信端末）の構成と処理について説明する。

　配信ユーザ２０は、情報処理装置（送信端末）を利用して、上述したように様々なアプリに応じたコンテンツを実行して配信する。さらに、１つのアプリの実行中にも、様々なシーンが発生する。

　例えば先に実施例１として説明したゲームアプリの一例である自動車レースのゲームコンテンツであれば、ゲームの開始前、開始後、ゲーム終了後など様々な異なるシーンが発生する。
　ゲームとしての自動車レースの実行中にも、クラッシュなどの事故の場面、追い越すシーンなど、様々なシーンがある。
　以下に説明する実施例３は、シーンに応じて異なる音声出力調整処理を実行する情報処理装置（送信端末）の実施例である。

　図１５は、本開示の実施例３の情報処理装置（送信端末）１２０の構成例を示す図である。
　図１５に示すように、情報処理装置（送信端末）１２０は、マイク（第１音源）１０１、アプリ音声再生部（第２音源）１０２、コメント音声再生部（第３音源）１０３、第１出力音声調整部１０４、音声合成部１０５、通信部１０６、さらに、シーン判別部１２１、第２出力音声調整部１１２を有する。

　なお、図１５に示す構成は、情報処理装置（送信端末）１２０の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置（送信端末）１２０は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ（スマートフォン）と同様の構成要素を有している。

　この第３実施例の情報処理装置（送信端末）１２０の構成は、先に図４を参照して説明した第１実施例の情報処理装置（送信端末）１００の構成に、シーン判別部１２１と、第２出力音声調整部１１２を追加した構成である。

　マイク（第１音源）１０１は、情報処理装置（送信端末）１２０に備えられたマイクであり、例えば情報処理装置（送信端末）１２０を利用してゲームアプリを実行中の配信ユーザ２０の声を入力して第１出力音声調整部１０４に入力する。
　図１５に示すように、マイク（第１音源）１０１に入力された配信ユーザ音声は第１出力音声調整部１０４に入力される。

　アプリ音声再生部（第２音源）１０２は、情報処理装置（送信端末）１２０において実行中のアプリの再生音、図に示すアプリ音声を生成して第１出力音声調整部１０４に出力する。
　例えば配信ユーザ２０が、情報処理装置（送信端末）１２０において自動車レースのゲームアプリを実行している場合、アプリ音声再生部（第２音源）１０２は、ゲームアプリによって生成されるＢＧＭや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第１出力音声調整部１０４に出力する。

　コメント音声再生部（第３音源）１０３は、情報処理装置（送信端末）１２０から送信する画像や音声データを再生して視聴する視聴ユーザ３０のコメントを再生する。

　視聴ユーザ３０は、配信ユーザ２０側の情報処理装置（送信端末）１２０から送信されるアプリ実行画面や音声データを、視聴ユーザ３０側の情報処理装置（受信端末）２００で受信、再生しながら、情報処理装置（受信端末）２００に、応援メッセージなどのコメントをテキスト入力する。
　この入力コメントはネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１２０に送信される。

　配信ユーザ２０側の情報処理装置（送信端末）１２０のコメント音声再生部１０３は、情報処理装置（受信端末）２００から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声（視聴ユーザコメント音声）を第１出力音声調整部１０４に出力する。

　なお、視聴ユーザ３０は、情報処理装置（受信端末）２００のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ２０側の情報処理装置（送信端末）１００に送信される。
　この場合、配信ユーザ２０側の情報処理装置（送信端末）１２０のコメント音声再生部１０３は、情報処理装置（受信端末）２００から受信した音声コメントを、そのまま第１出力音声調整部１０４に出力する。

　第２出力音声調整部１１２は、先に説明した実施例１にはない音声出力調整部である。
　第２出力音声調整部１１２は、配信ユーザ２０が情報処理装置（送信端末）１２０において実行し、配信しているコンテンツのシーンに応じた音声出力調整処理を実行する。

　例えば自動車レースのゲームアプリを実行して配信している場合であれば、ゲーム等のアプリの開始シーン、アプリ実行中の様々なシーン、例えば、クラッシュなどの事故の場面、追い越すシーンなどのシーン、さらにゲーム等のアプリ終了シーンなど、これら様々なシーンに応じた音声出力調整処理を実行する。

　第２出力音声調整部１１２は、シーン判別部１２１から配信ユーザ２０が情報処理装置（送信端末）１２０において実行し、配信中のシーン情報を入力し、入力したシーン情報に応じた出力音声調整処理を行う。

　シーン判別部１２１が判別するシーンは、上述したように、例えばゲーム等のアプリの開始シーン、アプリ実行中の様々なシーン、例えば、クラッシュなどの事故の場面、追い越すシーンなどのシーン、さらにゲーム等のアプリ終了シーンなどである。

　シーン判別部１２１は、情報処理装置（送信端末）１２０において起動され実行中のアプリのシーンを判別してシーン判別情報を生成して第２出力音声調整部１１２に入力する。
　シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０で実行中のアプリの属性情報を情報処理装置（送信端末）１２０内のメモリから読み取り、この読み取った属性情報に基づいて、現在、情報処理装置（送信端末）１２０において実行中のアプリのシーンを判別してシーン判別情報を生成して第２出力音声調整部１１２に出力する。

　あるいは、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別して、シーン判別情報を生成して第２出力音声調整部１１２に出力する構成としてもよい。

　さらに、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話内容を解析してシーンを判別して、シーン判別情報を生成して第２出力音声調整部１１２に出力する構成としてもよい。
　例えば、配信ユーザ２０が、
　「これからゲームを開始するよ」
　「みんな応援してね」
　このような発話を行った場合、シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、ゲームアプリの開始シーンであると判別することができる。

　また、配信ユーザ２０が、
　「さあ、追い抜いて先頭に立つぞ」
　このような発話を行った場合、シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリにおいて追い抜きシーンであると判別することができる。

　また、配信ユーザ２０が、
　「やった、優勝した。みんな応援ありがとう」
　このような発話を行った場合、シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリの終了シーンであると判別することができる。
　このように、シーン判別部１２１は、ユーザ発話内容を解析して、シーン判別を行い、その結果としてのシーン判別情報を第２出力音声調整部１１２に出力する構成としてもよい。

　さらに、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の通信部を介して入力する視聴ユーザ３０のコメント内容を解析してシーンを判別して、シーン判別情報を生成して第２出力音声調整部１１２に出力する構成としてもよい。

　例えば、視聴ユーザ３０から、
　「応援するよ、がんばってね」
　このようなコメントを受信した場合、シーン判別部１２１は、この視聴ユーザ３０のコメント内容を解析して、ゲームアプリの開始シーンであると判別することができる。

　また、例えば、視聴ユーザ３０から、
　「優勝やったね」
　このようなコメントを受信した場合、シーン判別部１２１は、この視聴ユーザ３０のコメント内容を解析して、ゲームの終了シーンであると判別することができる。

　第２出力音声調整部１１２は、第１出力音声調整部１０４が調整した３つの音源の調整音声の各々に対して、シーン判別部１２１から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第１出力音声調整部１０４において調整された出力音声に対して、さらに出力調整処理を実行する。

　図１６以下を参照して、本実施例３の具体的処理例、すなわち、シーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。

　なお、以下では、配信ユーザ２０側の情報処理装置（送信端末）１２０において自動車レースのゲームアプリを実行して配信している場合の様々なシーンに応じた処理について説明する。
　以下の複数のシーンの判別処理と、判別シーンに応じた音声出力調整処理の具体例について、順次、説明する。
　（１）シーン１＝ゲーム開始直前シーン
　（２）シーン２＝ゲーム実行中シーン
　（３）シーン３＝クラッシュ発生シーン
　（４）シーン４＝ゲーム終了シーン
　（５）シーン５＝配信終了シーン

　　［４－１．（処理例１）シーン１＝ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例］
　まず、処理例１として、ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。

　図１６は、ゲーム開始シーンのシーン判別処理の具体例について説明する図である。
　前述したように、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０で実行中のアプリの属性情報を情報処理装置（送信端末）１２０内のメモリから読み取り、この読み取った属性情報に基づいて、現在、情報処理装置（送信端末）１２０において実行中のアプリのシーンを判別する。

　あるいは、情報処理装置（送信端末）１２０の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話内容を解析してシーンを判別する。あるいは、情報処理装置（送信端末）１２０の通信部を介して入力する視聴ユーザ３０のコメント内容を解析してシーンを判別する。
　例えば、これらの様々な処理によってシーン判別処理を実行してシーン判別情報を生成し、第２出力音声調整部１１２に出力する。

　図１６に示す例では、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の表示部に表示された画像を解析する。図１６に示すように、情報処理装置（送信端末）１２０の表示部には、複数の自動車が［ＳＴＡＲＴ］の文字が表示された位置に並んでいる画像が表示されている。
　シーン判別部１２１は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームのアプリの開始シーンであることを判別する。

　また、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話を解析してシーン判別を行うことも可能である。
　図１６に示す例では、配信ユーザ２０が、
　「ぼくは、一番手前の３番の車だよ、サーキットを３周してゴールだよ。みんな応援してね」
　このような発話を行っている。
　シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリの開始シーンであることを判別することができる。

　このように、シーン判別部１２１は、情報処理装置（送信端末）１２０で実行中のアプリの属性情報を情報処理装置（送信端末）１２０内のメモリから読み取る。あるいは、情報処理装置（送信端末）１２０の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話内容を解析してシーンを判別する。あるいは、情報処理装置（送信端末）１２０の通信部を介して入力する視聴ユーザ３０のコメント内容を解析してシーンを判別する。
　これらの少なくともいずれかの処理を行って、現在、情報処理装置（送信端末）１２０において実行中のアプリのシーンを判別する。

　シーン判別部１２１は、シーン判別処理の結果であるシーン判別情報を第２出力音声調整部１１２に出力する。第２出力音声調整部１１２は、第１出力音声調整部１０４が調整した３つの音源の調整音声の各々に対して、シーン判別部１２１から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第１出力音声調整部１０４において調整された出力音声に対して、さらに出力調整処理を実行する。

　以下、図１７、図１８を参照して、
　シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム開始直前シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２、および音声合成部１０５が実行する処理の具体例について説明する。

　図１７は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム開始直前シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図１７には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図１７には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図１７（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図１７（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図１７（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　なお、前述したように第１出力音声調整部１０４における音声出力調整を「第１調整」、第２出力音声調整部１１２における音声出力調整を「第２調整」と定義して説明する。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図１７（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、シーンに応じた第２調整処理が実行される。

　図１７に示す例は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム開始直前シーン
　であると判別した場合の調整処理例である。
　図１７（ｂ）が、シーン＝ゲーム開始直前シーンである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図１７（ｂ）に示すように、シーン＝ゲーム開始直前シーンである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理は行わない。
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理は行わない。

　このように、シーン＝ゲーム開始直前シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理のみ実行し、アプリ音声、視聴ユーザコメント音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、シーン＝ゲーム開始直前シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声のみに対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図１７（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図１８を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図１８には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図１８（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図１７を参照して説明したように、シーン＝ゲーム開始直前シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図１８（ａ）の最上段に示す配信ユーザ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）マイク（第１音源）１０１から入力する配信ユーザ音声の調整前データ（細かい点線データ）
　（ｑ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図１８（ａ）の中段と下段に示すアプリ音声再生部（第２音源）１０２から入力するアプリ音声と、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図１８（ａ）の中段と下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図１８（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図１８（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図１８（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図１８（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　これらを示している。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図１８（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。

　なお、図１７、図１８を参照して説明した処理例、すなわち、
　シーン＝ゲーム開始直前シーン
　このシーンにおける第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、ゲーム開始直前シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図１７、図１８を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　　［４－２．（処理例２）シーン２＝ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例］
　次に、処理例２として、ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。

　図１９は、ゲーム実行中のシーンのシーン判別処理の具体例について説明する図である。
　前述したように、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０で実行中のアプリの属性情報や、表示部に表示された画像、あるいは、マイクを介して入力する配信ユーザ２０の発話内容、あるいは通信部を介して入力する視聴ユーザ３０のコメント内容を解析してシーンを判別する。
　例えば、これらの様々な処理によってシーン判別処理を実行してシーン判別情報を生成し、第２出力音声調整部１１２に出力する。

　図１９に示す例では、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の表示部に表示された画像を解析する。図１９に示すように、情報処理装置（送信端末）１２０の表示部には、複数の自動車が走行している画像が表示されている。
　シーン判別部１２１は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームのアプリが実行中のシーンであることを判別する。

　また、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話を解析してシーン判別を行うことも可能である。
　図１９に示す例では、配信ユーザ２０が、
　「よ～し、一気に加速するぞ」
　このような発話を行っている。
　シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリが実行中であり、加速や追い越しをしようとしているシーンであることを判別することができる。

　このように、シーン判別部１２１は、現在、情報処理装置（送信端末）１２０において実行中のアプリのシーンを判別する。
　シーン判別部１２１は、シーン判別処理の結果であるシーン判別情報を第２出力音声調整部１１２に出力する。第２出力音声調整部１１２は、第１出力音声調整部１０４が調整した３つの音源の調整音声の各々に対して、シーン判別部１２１から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第１出力音声調整部１０４において調整された出力音声に対して、さらに出力調整処理を実行する。

　以下、図２０、図２１を参照して、
　シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム実行中シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２、および音声合成部１０５が実行する処理の具体例について説明する。

　図２０は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム実行中シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図２０には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図２０には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図２０（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図２０（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図２０（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図２０（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、シーンに応じた第２調整処理が実行される。

　図２０に示す例は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム実行中シーン
　であると判別した場合の調整処理例である。
　図２０（ｂ）が、シーン＝ゲーム実行中シーンである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図２０（ｂ）に示すように、シーン＝ゲーム実行中シーンである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理は行わない。

　このように、シーン＝ゲーム実行中シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理を実行し、視聴ユーザコメント音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、シーン＝ゲーム実行中シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図２０（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図２１を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図２１には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図２１（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図２０を参照して説明したように、シーン＝ゲーム実行中シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図２１（ａ）の最上段に示す配信ユーザ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）マイク（第１音源）１０１から入力する配信ユーザ音声の調整前データ（細かい点線データ）
　（ｑ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図２１（ａ）の中段に示すアプリ音声のグラフにも、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整前データ（細かい点線データ）
　（ｑ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図２１（ａ）の下段に示すコメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図２１（ａ）の下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図２１（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図２１（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図２１（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図２１（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理がなされた第２調整後データ
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　これらを示している。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図２１（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。

　なお、図２０、図２１を参照して説明した処理例、すなわち、
　シーン＝ゲーム実行中シーン
　このシーンにおける第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、ゲーム実行中シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図２０、図２１を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　　［４－３．（処理例３）シーン３＝クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例］
　次に、処理例３として、クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。

　図２２は、クラッシュ発生のシーンのシーン判別処理の具体例について説明する図である。
　図２２に示す例では、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の表示部に表示された画像を解析する。図２２に示すように、情報処理装置（送信端末）１２０の表示部には、自動車が衝突（クラッシュ）している画像が表示されている。
　シーン判別部１２１は、例えばこのような画像の表示がなされていることに基づいて自動車レースのゲーム実行中にクラッシュが発生したシーンであることを判別する。

　また、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話を解析してシーン判別を行うことも可能である。
　図２２に示す例では、配信ユーザ２０が、
　「うわ～」
　このような発話を行っている。
　シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリが実行中であり、何らかの事故（クラッシュ）が発生したシーンであることを判別することができる。

　このように、シーン判別部１２１は、現在、情報処理装置（送信端末）１２０において実行中のアプリのシーンを判別する。
　シーン判別部１２１は、シーン判別処理の結果であるシーン判別情報を第２出力音声調整部１１２に出力する。

　以下、図２３、図２４を参照して、
　シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝クラッシュ発生シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２、および音声合成部１０５が実行する処理の具体例について説明する。

　図２３は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝クラッシュ発生シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図２３には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図２３には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図２３（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図２３（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図２３（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図２３（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、シーンに応じた第２調整処理が実行される。

　図２３に示す例は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝クラッシュ発生シーン
　であると判別した場合の調整処理例である。
　図２３（ｂ）が、シーン＝クラッシュ発生シーンである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図２３（ｂ）に示すように、シーン＝クラッシュ発生シーンである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。

　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。

　ただし、このシーン３＝クラッシュ発生シーンにおける配信ユーザ音声に対する第２調整処理の出力レベルの上昇度合は、先に図２０を参照して説明したシーン２＝ゲーム実行中シーンにおける上昇度合より抑制した設定としている。

　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理も全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。

　このシーン３＝クラッシュ発生シーンにおけるアプリ音声に対する第２調整処理の出力レベルの上昇度合は、先に図２０を参照して説明したシーン２＝ゲーム実行中シーンにおける上昇度合とほぼ同様の設定としている。
　これは、クラッシュ時の衝突音を、より大きくするための調整処理である。

　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理は行わない。

　このように、シーン＝クラッシュ発生シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理を実行し、視聴ユーザコメント音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、シーン＝クラッシュ発生シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図２３（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図２４を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図２４には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図２４（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図２３を参照して説明したように、シーン＝クラッシュ発生シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図２４（ａ）の最上段に示す配信ユーザ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）マイク（第１音源）１０１から入力する配信ユーザ音声の調整前データ（細かい点線データ）
　（ｑ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図２４（ａ）の中段に示すアプリ音声のグラフにも、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整前データ（細かい点線データ）
　（ｑ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図２４（ａ）の下段に示すコメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図２４（ａ）の下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図２４（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図２４（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図２４（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図２４（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理がなされた第２調整後データ
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　これらを示している。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図２４（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。

　本処理例では、アプリ音声に含まれるクラッシュ音や、配信ユーザ２０の叫び声が、より強調されることになり、クラッシュ発生時の緊迫度を視聴者に強く伝える効果をもたらすものとなる。

　なお、図２３、図２４を参照して説明した処理例、すなわち、
　シーン＝クラッシュ発生シーン
　このシーンにおける第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、クラッシュ発生シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図２３、図２４を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　　［４－４．（処理例４）シーン４＝ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例］
　次に、処理例４として、ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。

　図２５は、ゲーム終了のシーンのシーン判別処理の具体例について説明する図である。
　図２５に示す例では、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の表示部に表示された画像を解析する。図２５に示すように、情報処理装置（送信端末）１２０の表示部には、自動車がゴール（ＧＯＡＬ）ラインを通過している画像が表示されている。
　シーン判別部１２１は、例えばこのような画像の表示がなされていることに基づいて自動車レースのゲームが終了したシーンであることを判別する。

　また、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話を解析してシーン判別を行うことも可能である。
　図２５に示す例では、配信ユーザ２０が、
　「やった～、応援ありがとう」
　このような発話を行っている。
　シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリが実行中であり、何らかの事故（クラッシュ）が発生したシーンであることを判別することができる。

　また、情報処理装置（送信端末）１２０の通信部を介して入力する視聴ユーザ３０のコメントを解析してシーン判別を行うことも可能である。
　図２５に示す例では、視聴ユーザ３０が、
　「おめでとう、やったね」
　このようなコメントを送信している。
　シーン判別部１２１は、この視聴ユーザ３０のコメントを解析して、自動車レースのゲームが終了したシーンであることを判別することができる。

　このように、シーン判別部１２１は、情報処理装置（送信端末）１２０で実行中のアプリの属性情報を情報処理装置（送信端末）１２０内のメモリから読み取る。あるいは、情報処理装置（送信端末）１２０の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話内容を解析してシーンを判別する。あるいは、情報処理装置（送信端末）１２０の通信部を介して入力する視聴ユーザ３０のコメントを解析してシーンを判別する。
　これらの少なくともいずれかの処理を行って、現在、情報処理装置（送信端末）１２０において実行中のアプリのシーンを判別する。

　以下、図２６、図２７を参照して、
　シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム終了シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２、および音声合成部１０５が実行する処理の具体例について説明する。

　図２６は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム終了シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図２６には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図２６には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図２６（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図２６（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図２６（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図２６（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、シーンに応じた第２調整処理が実行される。

　図２６に示す例は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝ゲーム終了シーン
　であると判別した場合の調整処理例である。
　図２６（ｂ）が、シーン＝ゲーム終了シーンである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図２６（ｂ）に示すように、シーン＝ゲーム終了シーンである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。

　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理は行わない。

　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理も全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。

　このように、シーン＝ゲーム終了シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理と、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理を実行し、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、シーン＝ゲーム終了シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図２６（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図２７を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図２７には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図２７（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図２６を参照して説明したように、シーン＝ゲーム終了シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図２７（ａ）の最上段に示す配信ユーザ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）マイク（第１音源）１０１から入力する配信ユーザ音声の調整前データ（細かい点線データ）
　（ｑ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図２７（ａ）の中段に示すアプリ音声再生部（第２音源）１０２から入力するアプリ音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図２７（ａ）の下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図２７（ａ）の下段に示すコメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声の調整前データ（細かい点線データ）
　（ｑ）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　音声合成部１０５には、上記（ｒ）のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
　すなわち、コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ（実線データ）が入力される。

　図２７（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図２７（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図２７（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図２７（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ

　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理がなされた第２調整後データ
　これらを示している。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図２７（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声と視聴ユーザのコメント音声が、アプリ音声に比較して、より聞き取りやすい音声として出力されることになる。

　本処理例では、ゲーム終了時の配信ユーザ２０と視聴ユーザ３０間の会話、交流をスムーズに行えるように、アプリ音声を控えめとした設定とした調整処理例である。

　なお、図２６、図２７を参照して説明した処理例、すなわち、
　シーン＝ゲーム終了シーン
　このシーンにおける第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、ゲーム終了シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図２６、図２７を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　　［４－５．（処理例５）シーン５＝配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例］
　次に、処理例５として、配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。

　図２８は、配信終了シーンのシーン判別処理の具体例について説明する図である。
　図２８に示す例では、シーン判別部１２１は、例えば、情報処理装置（送信端末）１２０の表示部に表示された画像を解析する。図２８に示すように、情報処理装置（送信端末）１２０の表示部には、ゲームアプリの結果情報が表示されている。
　シーン判別部１２１は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームアプリの配信が終了するシーンであることを判別する。

　また、情報処理装置（送信端末）１２０のマイクを介して入力する配信ユーザ２０の発話を解析してシーン判別を行うことも可能である。
　図２８に示す例では、配信ユーザ２０が、
　「じゃあ、またね～！応援ありがとう」
　このような発話を行っている。
　シーン判別部１２１は、この配信ユーザ２０の発話内容を解析して、自動車レースのゲームアプリの配信が終了するシーンであることを判別することができる。

　以下、図２９、図３０を参照して、
　シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝配信終了シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２、および音声合成部１０５が実行する処理の具体例について説明する。

　図２９は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝配信終了シーン
　であると判別した場合の第１出力音声調整部１０４、第２出力音声調整部１１２が実行する各音源対応の出力調整処理の具体例について説明する。

　図２９には、上から順に、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する調整処理例

　図２９には、これら３つの音源の音声データ各々に対する以下の２つの出力調整部の出力音声調整処理の具体例を示している。
　（ａ）第１出力音声調整部１０４における調整処理
　（ｂ）第２出力音声調整部１１２における調整処理
　図２９（ａ），（ｂ）に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データである。

　図２９（ａ）に示す第１出力音声調整部１０４における調整処理は、先に図５を参照して説明した処理と同様の処理であり、３つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行している。

　図２９（ａ）の各グラフに示す点線データは第１出力音声調整部１０４における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第１出力音声調整部１０４における第１調整後の音声特性データである。

　第１出力音声調整部１０４における第１調整後の音声データが第２出力音声調整部１１２に入力される。すなわち、図２９（ａ）の各グラフ中の第１調整後データ（実線データ）として示される音声特性を持つ３つの音源対応の第１調整後データが第２出力音声調整部１１２に入力され、シーンに応じた第２調整処理が実行される。

　図２９に示す例は、シーン判別部１２１が、シーン判別処理の結果として、
　シーン＝配信終了シーン
　であると判別した場合の調整処理例である。
　図２９（ｂ）が、シーン＝配信終了シーンである場合に、第２出力音声調整部１１２が実行する３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対する調整処理の具体例である。

　図２９（ｂ）に示すように、シーン＝配信終了シーンである場合、第２出力音声調整部１１２は、３つの音源からの出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して、以下の第２調整処理を実行する。
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理として、全体的に出力レベルを上昇させ、さらに周波特性（＝グラフの曲線形状）をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理として、全体的に出力レベルを上昇させるような出力調整を行う。
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第２調整処理は行わない。

　このように、シーン＝配信終了シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声に対する第２調整処理と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第２調整処理を実行し、視聴ユーザコメント音声に対する第２調整処理は実行せず、第１調整データをそのまま出力する。

　すなわち、シーン＝配信終了シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部１０５に出力する。

　なお、この図２９（ｂ）に示す第２出力音声調整部１１２における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。

　次に、図３０を参照して、音声合成部１０５の処理の具体例について説明する。
　音声合成部１０５は、３つの音源の出力音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）に対して第１出力音声調整部１０４と第２出力音声調整部１１２が調整した調整音声データの合成処理（ミキシング処理）を実行する。

　図３０には、以下の各処理例を示している。
　（ａ）第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（ｂ）音声合成部の合成処理例

　図３０（ａ）には、上段から、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における調整処理例
　これらを示している。

　なお、先に図２９を参照して説明したように、シーン＝配信終了シーンである場合、第２出力音声調整部１１２は、マイク（第１音源）１０１から入力する配信ユーザ音声と、アプリ音声再生部（第２音源）１０２から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。

　図３０（ａ）の最上段に示す配信ユーザ音声のグラフには、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）マイク（第１音源）１０１から入力する配信ユーザ音声の調整前データ（細かい点線データ）
　（ｑ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）マイク（第１音源）１０１から入力する配信ユーザ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図３０（ａ）の中段に示すアプリ音声のグラフにも、以下の３つの音声特性（周波数－レベル特性）データを示している。
　（ｐ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声の調整前データ（細かい点線データ）
　（ｑ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４における第１調整後データ（荒い点線データ）
　（ｒ）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対する第１出力音声調整部１０４と第２出力音声調整部１１２における２つの調整を実行した第２調整後データ（実線データ）

　図３０（ａ）の下段に示すコメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声については、第１出力音声調整部１０４のみで調整処理が実行されており、第２出力音声調整部１１２では調整処理がなされない。
　従って、音声合成部１０５には、図３０（ａ）の下段の各グラフ内に第１調整後データとして実線で示す音声特性を持つ音声データが入力される。

　図３０（ｂ）には、音声合成部１０５が実行する音声合成処理（ミキシング処理）の具体例を示している。
　図３０（ｂ）に示すグラフには、音声合成部１０５による３音源の調整後音声データの合成（ミキシング）処理によって生成される１つの合成音声に含まれる各音源データのデータ特性成分（周波数－レベル特性）を示している。

　図３０（ｂ）に示すグラフ内に重なって示される３つの曲線は、それぞれ図３０（ａ）のグラフに実線で示す調整後音声特性に相当する。
　すなわち、
　（１）マイク（第１音源）１０１から入力する配信ユーザ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理が実行された第２調整後データ
　（２）アプリ音声再生部（第２音源）１０２から入力するアプリ音声に対して第１出力音声調整部１０４と第２出力音声調整部１１２において２つの調整処理がなされた第２調整後データ
　（３）コメント音声再生部（第３音源）１０３から入力する視聴ユーザコメント音声に対して第１出力音声調整部１０４のみにおいて１つの調整処理がなされた第１調整後データ
　これらを示している。

　視聴ユーザ３０側の情報処理装置（受信端末）２００は、図３０（ｂ）に示す各音源対応の音声成分を持つ合成音を再生することになる。
　この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。

　なお、図２９、図３０を参照して説明した処理例、すなわち、
　シーン＝配信終了シーン
　このシーンにおける第２出力音声調整部１１２の各音源音声の出力調整例は一例であり、配信終了シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。

　また、第１出力音声調整部１０４における各音源対応の音声の出力調整処理についても、図２９、図３０を参照して説明した処理例では、３つの音源各々の出力レベルの最大値を１つの同じ調整目標レベル（Ｌｘ）に設定する調整を行う例について説明したが、第１出力音声調整部１０４についても、この調整例に限らず、先に図７、図８を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。

　以上、説明したように、本開示の情報処理装置（送信端末）は、配信コンテンツの配信シーンに応じた音声出力調整を実行し、シーンに応じた最適な合成音声を生成して配信する処理を実現する。

　　［５．（実施例４）実施例１～実施例３の処理をすべて実行可能な構成を有する情報処理装置（送信端末）の構成と処理について］
　次に、本開示の実施例４として、上述した実施例１～実施例３の処理をすべて実行可能な構成を有する情報処理装置（送信端末）の構成と処理について説明する。

　先に説明した実施例１～実施例３は、以下の処理を実行する実施例である。
　（実施例１）図４を参照して説明したように第１出力音声調整部１０４において、複数音源各々の出力音声を調整して、調整後の各音源出力音声を合成して配信する。
　（実施例２）図９を参照して説明したように、第１出力音声調整部１０４において、複数音源各々の出力音声を調整し、さらに第２出力音声調整部１０４において、配信コンテンツの種類に応じた音声出力調整を実行し、これらの２段階の調整後の各音源出力音声を合成して配信する。
　（実施例３）図１５を参照して説明したように、第１出力音声調整部１０４において、複数音源各々の出力音声を調整し、さらに第２出力音声調整部１０４において、配信コンテンツの配信シーンに応じた音声出力調整を実行し、これらの２段階の調整後の各音源出力音声を合成して配信する。

　以下に説明する実施例４は、上述した実施例１～実施例３の処理をすべて実行可能な構成を有する情報処理装置（送信端末）である。

　図３１は、本開示の実施例４の情報処理装置（送信端末）１３０の構成例を示す図である。
　図３１に示すように、情報処理装置（送信端末）１３０は、マイク（第１音源）１０１、アプリ音声再生部（第２音源）１０２、コメント音声再生部（第３音源）１０３、第１出力音声調整部１０４、音声合成部１０５、通信部１０６、さらに、コンテンツ種類判別部１１１、第２出力音声調整部１１２、シーン判別部１２１を有する。
　これらの構成部各々は、先に実施例１～３において説明したと同様の構成である。

　なお、図３１に示す構成は、情報処理装置（送信端末）１３０の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置（送信端末）１３０は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ（スマートフォン）と同様の構成要素を有している。

　この第４実施例の情報処理装置（送信端末）１３０の構成は、先に図４を参照して説明した第１実施例の情報処理装置（送信端末）１００、および、
　図９を参照して説明した第２実施例の情報処理装置（送信端末）１１０、および、
　図１５を参照して説明した第３実施例の情報処理装置（送信端末）１２０、
　これらの各実施例の装置の構成をすべて含む情報処理装置である。

　この実施例４の情報処理装置（送信端末）１３０は、以下の各処理を実行することが可能な構成を持つ。
　（ａ）実施例１において説明した第１出力音声調整部１０４における音源各々の出力音声の調整処理、
　（ｂ）実施例２において説明した第２出力音声調整部１１２における配信コンテンツの種類に応じた音源各々の出力音声の調整処理、
　（ｃ）実施例３において説明した第２出力音声調整部１１２における配信シーンに応じた音源各々の出力音声の調整処理、

　図３１に示す実施例４の情報処理装置（送信端末）１３０は、これらの処理を併せて実行、あるいは選択的に実行することが可能な構成を持つ。

　すなわち、第１出力音声調整部１０４は、以下の３つの音声データを入力する。
　（１）マイク（第１音源）１０１から配信ユーザ音声、
　（２）アプリ音声再生部（第２音源）１０２からアプリ音声、
　（３）コメント音声再生部（第３音源）１０３から視聴ユーザコメント音声、

　第１出力音声調整部１０４は、これら３つの音源からの３つの音声データを入力して、例えば先に図５を参照して説明したように、３つの音源の出力音声の最大出力を、予め規定した調整目標レベル（Ｌｘ）に設定する調整処理を実行する。あるいは図７、図８を参照して説明した調整処理などを実行する。
　この処理は、先に図４～図８を参照して説明した実施例１の処理に対応する処理である。

　第２出力音声調整部１１２は、コンテンツ種類判別部１１１から配信ユーザ２０が情報処理装置（送信端末）１１０において実行、配信しているコンテンツの種類情報を入力し、第１出力音声調整部１０４が調整した３つの音源の調整音声の各々に対して、コンテンツ種類に応じた出力音声調整処理を行う。
　この処理は、先に図９～図１４を参照して説明した実施例２の処理に対応する処理である。

　さらに、第２出力音声調整部１１２は、シーン判別部１２１から配信ユーザ２０が情報処理装置（送信端末）１１０において実行、配信しているアプリのシーン情報を入力し、第１出力音声調整部１０４が調整した３つの音源の調整音声の各々に対して、シーンに応じた出力音声調整処理を行う。
　この処理は、先に図１５～図３０を参照して説明した実施例３の処理に対応する処理である。

　このように、図３１に示す情報処理装置（送信端末）１３０は、上記の実施例１～３の処理を併せて実行、あるいは選択的に実行することが可能な構成を持つ。

　　［６．（実施例５）本開示の実施例５の情報処理装置（受信端末）の構成と処理について］
　次に、本開示の実施例５として、配信コンテンツを受信する側の情報処理装置（受信端末）２００の構成と処理について説明する。

　図３２は、本開示の実施例５の情報処理装置（受信端末）２００の構成例を示す図である。
　図３２に示すように、情報処理装置（受信端末）２００は、通信部２０１、出力音声調整部２０２、音声出力部２０３、マイク２０４、音声出力機器特性解析部２０５、音声出力環境解析部２０６を有する。

　なお、図３２に示す構成は、情報処理装置（受信端末）２００の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置（受信端末）２００は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ（スマートフォン）と同様の構成要素を有している。

　通信部２０１は、コンテンツ配信を実行する情報処理装置（送信端末）の送信データを受信する。
　また、情報処理装置（受信端末）２００側の視聴ユーザ３０が入力したコメントの送信処理なども実行する。

　出力音声調整部２０２は、情報処理装置（送信端末）の送信データに含まれる音声データの出力調整処理を実行する。
　この音声出力調整処理の詳細については後段で説明する。

　音声出力部２０３は、スピーカ等によって構成される音声出力部であり、出力音声調整部２０２において調整された音声の出力処理を行う。

　マイク２０４は、視聴ユーザ３０の声や、周囲のノイズなどの環境音を取得し、音声出力環境解析部２０６に入力する。

　音声出力機器特性解析部２０５は、音声出力部２０３を構成するスピーカなどの音声出力機器の機器特性を解析する。例えばスピーカ出力音の周波数特性などを解析する。解析情報は出力音声調整部２０２に入力される。

　音声出力環境解析部２０６は、マイク２０４から視聴ユーザ３０の声や、周囲のノイズなどの環境音を入力し、情報処理装置（送信端末）から配信されるコンテンツの視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報を解析する。解析情報は出力音声調整部２０２に入力される。

　次に、図３３以下を参照して出力音声調整部２０２が実行する出力音声調整処理の具体例について説明する。

　出力音声調整部２０２は、以下の各情報を入力する。
　（１）音声出力機器特性解析部２０５から、音声出力部２０３を構成するスピーカなどの音声出力機器対応の音声出力機器特性
　（２）音声出力環境解析部２０６から、マイク２０４の入力音に基づく音声出力環境情報

　音声出力機器特性解析部２０５から入力するスピーカなどの音声出力機器対応の音声出力機器特性とは、例えばスピーカ出力音の周波数特性などの特性である。
　また、音声出力環境解析部２０６から入力する音声出力環境情報とは、視聴ユーザ３０の声や、周囲のノイズなどの環境音などによって解析される情報であり、コンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。

　出力音声調整部２０２は、これらの入力情報に基づいて、通信部２０１を介して入力する音声、すなわち情報処理装置（送信端末）が送信する配信コンテンツに含まれる音声の出力調整処理を実行する。

　図３３は、出力音声調整部２０２が、音声出力機器特性解析部２０５から、音声出力部２０３を構成するスピーカなどの音声出力機器対応の音声出力機器特性を入力して実行する出力音声調整処理の具体例を説明する図である。

　図３３左下の「（ａ）受信音声周波数特性」は、通信部２０１が受信する音声データの特性を示すグラフである。すなわち、配信ユーザ２０側の情報処理装置（送信端末）１００が配信するコンテンツの音声データの特性である。
　横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データを示している。

　なお、情報処理装置（受信端末）２００の通信部２０１が受信する音声データは、配信ユーザ２０側の情報処理装置（送信端末）１００の複数の音源対応の音声（配信ユーザ音声、アプリ音声、視聴ユーザコメント音声）の合成音声データであり、先に説明した実施例１～４のいずれかの処理によって調整された音声データである。

　図３３に示すように、出力音声調整部２０２は、図３３左下の「（ａ）受信音声周波数特性」に示す特性を有する音声データを、通信部２０１を介して入力する。

　さらに、出力音声調整部２０２は、音声出力機器特性解析部２０５から、音声出力部２０３を構成するスピーカなどの音声出力機器対応の音声出力機器特性を入力する。
　音声出力機器特性解析部２０５は、音声出力部２０３の特性を解析する。
　音声出力機器特性解析部２０５が解析した音声出力部２０３の特性の一例が、図３３上段に示す「（ｂ）音声出力機器特性」である。
　図３３上段に示す「（ｂ）音声出力機器特性」は、高周波領域の出力が他の周波数領域に比較して相対的に弱いという特徴を持つ。

　出力音声調整部２０２は、音声出力機器特性解析部２０５が解析した音声出力部２０３の特性「（ｂ）音声出力機器特性」に基づいて、通信部２０１を介して送信端末から受信した音声データの出力調整を実行する。

　例えば、通信部２０１を介して送信端末から受信した音声データの特性である「（ａ）受信音声周波数特性」を調整し、図３３右下の「（ｃ）出力音声周波数特性」を持つ音声データとする調整処理を実行する。

　図３３右下の「（ｃ）出力音声周波数特性」には、調整前データ（点線）と、調整後データ（実線）を示している。
　調整後データ（実線）は、調整前データ（点線）の高周波領域の出力レベルを上昇させた音声特性を有するデータであり、出力音声調整部２０２は、送信端末から受信した音声データの高周波領域の出力レベルを上昇（ゲインアップ）させる音声調整処理を実行したことを示している。

　出力音声調整部２０２によるこのような出力音声調整処理によって、音声出力部（スピーカ）２０３を介して出力される音声は、元の受信データ（（ａ）受信音声周波数特性）に比較して高周波領域が聞き取りやすい音声データとして出力されることになる。

　次に、図３４を参照して、出力音声調整部２０２が、音声出力環境解析部２０６から、マイク２０４の入力音に基づく音声出力環境情報を入力して実行する出力音声調整処理の具体例について説明する。

　出力音声調整部２０２は、音声出力環境解析部２０６から視聴ユーザ３０の声や、周囲のノイズなどの環境音などの解析情報である音声出力環境情報を入力する。例えばコンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。

　出力音声調整部２０２は、この入力情報に基づいて、通信部２０１を介して入力する音声、すなわち情報処理装置（送信端末）が送信する配信コンテンツに含まれる音声の出力調整処理を実行する。

　図３４左上の「（ａ）受信音声周波数特性」は、通信部２０１が受信する音声データの特性を示すグラフである。すなわち、配信ユーザ２０側の情報処理装置（送信端末）１００が配信するコンテンツの音声データの特性である。
　横軸に周波数（Ｈｚ）、縦軸に出力レベル（ｄＢ）を設定した周波数－レベル対応データを示している。

　図３４に示すように、出力音声調整部２０２は、図３４左上の「（ａ）受信音声周波数特性」に示す特性を有する音声データを、通信部２０１を介して入力する。

　さらに、出力音声調整部２０２は、音声出力環境解析部２０６から、マイク２０４の入力音に基づいて解析される音声出力環境情報を入力する。
　音声出力環境解析部２０６は、マイク２０４の入力音に基づいて、視聴ユーザ３０の声や、周囲のノイズなどの環境音など、環境音の解析処理を実行する。例えばコンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。

　音声出力環境解析部２０６が解析した環境ノイズ特性の一例が、図３４下段に示す「（ｂ）環境ノイズ特性」である。
　図３４下段に示す「（ｂ）環境ノイズ特性」は、低周波領域のノイズが他の周波数領域に比較して相対的に強いという特徴を持つ。
　これは、例えば風が吹いている状態などによって発生する。

　出力音声調整部２０２は、音声出力環境解析部２０６が解析した「（ｂ）環境ノイズ特性」に基づいて、通信部２０１を介して送信端末から受信した音声データの出力調整を実行する。

　例えば、通信部２０１を介して送信端末から受信した音声データの特性である「（ａ）受信音声周波数特性」を調整し、図３４右上の「（ｃ）出力音声周波数特性」を持つ音声データとする調整処理を実行する。

　図３４右上の「（ｃ）出力音声周波数特性」には、調整前データ（点線）と、調整後データ（実線）を示している。
　調整後データ（実線）は、調整前データ（点線）の低周波領域の出力レベルを上昇させた音声特性を有するデータであり、出力音声調整部２０２は、送信端末から受信した音声データの低周波領域の出力レベルを上昇（ゲインアップ）させる音声調整処理を実行したことを示している。

　出力音声調整部２０２による、この出力音声調整処理によって、音声出力部（スピーカ）２０３を介して出力される音声は、風が吹いている環境でも低周波領域が聞き取りやすい音声データとして出力されることになる。

　なお、図３３、図３４では、出力音声調整部２０２による出力音声調整処理例として、以下の２種類の出力音声調整処理を個別に説明した。
　（１）音声出力機器特性解析部２０５から入力する、音声出力部２０３を構成するスピーカなどの音声出力機器対応の音声出力機器特性に基づく出力音声調整処理
　（２）音声出力環境解析部２０６から入力する、マイク２０４の入力音に基づく音声出力環境情報に基づく出力音声調整処理

　出力音声調整部２０２は、これら２つの処理は併せて実行することが可能である。
　図３５は、図３３、図３４を参照して説明した２つの処理を併せて実行する処理例を説明する図である。

　図３５の上段には、以下の各音声特性図を示している。
　（Ａ１）受信音声周波数特性
　（Ａ２）第１調整後音声特性（＝音声出力機器特性解析部２０５から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性）
　（Ａ３）第２調整後音声特性（＝音声出力環境解析部２０６から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性）

　また、図３５の下段には、以下の２つの特性図を示している。
　（Ｂ１）音声出力機器特性解析部２０５から入力する音声出力機器特性
　（Ｂ２）音声出力環境解析部２０６から入力する環境ノイズ特性

　出力音声調整部２０２は、
　「（Ｂ１）音声出力機器特性解析部２０５から入力する音声出力機器特性」
　に基づいて、
　「（Ａ１）受信音声周波数特性」の調整処理を実行して、
　「（Ａ２）第１調整後音声特性（＝音声出力機器特性解析部２０５から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性）」を生成する。

　さらに、
　「（Ｂ２）音声出力環境解析部２０６から入力する環境ノイズ特性」
　に基づいて、
　「（Ａ２）第１調整後音声特性（＝音声出力機器特性解析部２０５から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性）」
をさらに調整して、
　「（Ａ３）第２調整後音声特性（＝音声出力環境解析部２０６から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性）」を生成する。

　この２段階の調整後のデータ、すなわち、
　「（Ａ３）第２調整後音声特性（＝音声出力環境解析部２０６から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性）」を持つ音声データが音声出力部（スピーカ）２０３を介して出力される。

　音声出力部（スピーカ）２０３を介して出力される音声データは、元の受信データ（（Ａ１）受信音声周波数特性）に比較して高周波領域が聞き取りやすく、また風が吹いている環境でも低周波領域が聞き取りやすい音声データとして出力されることになる。

　このように、本開示の実施例５である配信コンテンツを受信する側の情報処理装置（受信端末）２００は、スピーカ等の音声出力機器の機器特性や、環境ノイズ特性に基づく出力音声調整処理を実行して調整後の音声をスピーカ等の音声出力機器を介して出力する。
　この処理により、聞き取りやすい音声特性（周波数特性）を持つ音声データの出力が実現される。

　　［７．情報処理装置のハードウェア構成例について］
　次に、図３６を参照して本開示の情報処理装置、すなわち送信端末や受信端末として利用され情報処理装置のハードウェア構成例について説明する。

　図３６は、本開示の情報処理装置、すなわち送信端末や受信端末として利用される情報処理装置のハードウェア構成の一例を示す図である。
　図３６に示すハードウェアの構成要素について説明する。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０３には、ＣＰＵ３０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ３０１、ＲＯＭ３０２、およびＲＡＭ３０３は、バス３０４により相互に接続されている。

　ＣＰＵ３０１はバス３０４を介して入出力インタフェース３０５に接続され、入出力インタフェース３０５には、各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部３０６、表示部やスピーカなどに対するデータ出力を実行する出力部３０７が接続されている。ＣＰＵ３０１は、入力部３０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部３０７に出力する。

　入出力インタフェース３０５に接続されている記憶部３０８は、例えばフラッシュメモリ、ハードディスク等からなり、ＣＰＵ３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア３１１を駆動し、データの記録あるいは読み取りを実行する。

　　［８．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第１出力音声調整部と、
　前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
　前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
　前記第１出力音声調整部は、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置。

　（２）　前記第１出力音声調整部は、
　各音源の出力音声の周波数対応音量レベルの最大値を、前記複数音源に共通の１つの目標レベルに一致させる出力音声調整処理を実行する（１）に記載の情報処理装置。

　（３）　前記第１出力音声調整部は、
　各音源の出力音声の周波数対応音量レベルの最大値を、各音源固有の目標レベルに一致させる出力音声調整処理を実行する（１）または（２）に記載の情報処理装置。

　（４）　前記第１出力音声調整部は、
　各音源の出力音声の周波数対応の音量レベル差分を減少させる出力音声調整処理を実行する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記複数音源の出力音声は、
　（ａ）前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
　（ｂ）前記情報処理装置のマイクを介して入力するユーザ音声、
　（ｃ）前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
　上記（ａ）～（ｃ）の少なくとも２つ以上の音声を含む（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記情報処理装置は、さらに、
　前記通信部を介して出力するコンテンツの種類、またはコンテンツのシーンに応じて各音源の出力音声の出力音声調整処理を実行する第２出力音声調整部を有する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツの種類に応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する（６）に記載の情報処理装置。

　（８）　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツの種類がゲームコンテンツであり、
　前記複数音源の出力音声として、前記情報処理装置のマイクを介して入力するユーザ音声が含まれる場合、前記ユーザ音声を強調する出力音声調整処理を実行する（６）または（７）に記載の情報処理装置。

　（９）　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツの種類が音楽コンテンツである場合、
　前記音楽コンテンツの音楽再生音を強調する出力音声調整処理を実行する（６）～（８）いずれかに記載の情報処理装置。

　（１０）　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツのシーンに応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する（６）～（９）いずれかに記載の情報処理装置。

　（１１）　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツのシーンに応じた出力音声調整処理の実行対象として、
　（ａ）前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
　（ｂ）前記情報処理装置のマイクを介して入力するユーザ音声、
　（ｃ）前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
　上記（ａ）～（ｃ）の少なくとも１つ以上の音声を選択し、選択音声の出力音声調整処理を実行する（６）～（１０）いずれかに記載の情報処理装置。

　（１２）　前記情報処理装置は、
　前記通信部を介して出力するコンテンツのシーンを判別するシーン判別部を有し、
　前記シーン判別部は、
　前記情報処理装置で実行中のアプリの属性情報、または表示部の表示情報、または、マイクを介して入力するユーザの発話内容、または、前記コンテンツの視聴ユーザのコメントを解析してシーンを判別し、
　前記第２出力音声調整部は、
　前記シーン判別部による判別シーンに応じた出力音声調整処理を実行する（６）～（１１）いずれかに記載の情報処理装置。

　（１３）　コンテンツを受信する通信部と、
　前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
　前記出力音声調整部は、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置。

　（１４）　前記出力音声調整部は、
　前記音声出力機器特性情報として、音声出力部を構成する音声出力機器の周波数対応出力レベルの解析情報を生成し、
　音声出力機器の出力レベルが相対的に低い周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する（１３）に記載の情報処理装置。

　（１５）　前記出力音声調整部は、
　音声出力環境情報として、マイクを介して入力するノイズの周波数解析情報を生成し、
　ノイズに多く含まれる周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する（１３）または（１４）に記載の情報処理装置。

　（１６）　情報処理装置において実行する情報処理方法であり、
　第１出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第１出力音声調整ステップと、
　音声合成部が、前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
　通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
　前記第１出力音声調整ステップにおいて、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法。

　（１７）　情報処理装置において実行する情報処理方法であり、
　通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
　出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
　前記出力音声調整ステップにおいて、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法。

　（１８）　情報処理装置において情報処理を実行させるプログラムであり、
　第１出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第１出力音声調整ステップと、
　音声合成部に、前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
　通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
　前記第１出力音声調整ステップにおいて、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラム。

　（１９）　情報処理装置において情報処理を実行させるプログラムであり、
　通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
　出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
　前記出力音声調整ステップにおいて、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラム。

　明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
　具体的には、例えば、複数音源各々の出力音声の調整処理を実行する第１出力音声調整部と、第１出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第１出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第２出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。
　これらの処理により、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。

　　１０　情報処理システム
　　２０　配信ユーザ
　　３０　視聴ユーザ
　１００，１１０，１２０，１３０　情報処理装置（送信端末）
　１０１　マイク（第１音源）
　１０２　アプリ音声再生部（第２音源）
　１０３　コメント音声再生部（第３音源）
　１０４　第１出力音声調整部
　１０５　音声合成部
　１０６　通信部
　１１１　コンテンツ種類判別部
　１１２　第２出力音声調整部
　１２１　シーン判別部
　２００　情報処理装置（受信端末）
　２０１　通信部
　２０２　出力音声調整部
　２０３　音声出力部
　２０４　マイク
　２０５　音声出力機器特性解析部
　２０６　音声出力環境解析部
　３０１　ＣＰＵ
　３０２　ＲＯＭ
　３０３　ＲＡＭ
　３０４　バス
　３０５　入出力インタフェース
　３０６　入力部
　３０７　出力部
　３０８　記憶部
　３０９　通信部
　３１０　ドライブ
　３１１　リムーバブルメディア

Claims

　複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第１出力音声調整部と、
　前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
　前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
　前記第１出力音声調整部は、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置。
　前記第１出力音声調整部は、
　各音源の出力音声の周波数対応音量レベルの最大値を、前記複数音源に共通の１つの目標レベルに一致させる出力音声調整処理を実行する請求項１に記載の情報処理装置。
　前記第１出力音声調整部は、
　各音源の出力音声の周波数対応音量レベルの最大値を、各音源固有の目標レベルに一致させる出力音声調整処理を実行する請求項１に記載の情報処理装置。
　前記第１出力音声調整部は、
　各音源の出力音声の周波数対応の音量レベル差分を減少させる出力音声調整処理を実行する請求項１に記載の情報処理装置。
　前記複数音源の出力音声は、
　（ａ）前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
　（ｂ）前記情報処理装置のマイクを介して入力するユーザ音声、
　（ｃ）前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
　上記（ａ）～（ｃ）の少なくとも２つ以上の音声を含む請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに、
　前記通信部を介して出力するコンテンツの種類、またはコンテンツのシーンに応じて各音源の出力音声の出力音声調整処理を実行する第２出力音声調整部を有する請求項１に記載の情報処理装置。
　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツの種類に応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する請求項６に記載の情報処理装置。
　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツの種類がゲームコンテンツであり、
　前記複数音源の出力音声として、前記情報処理装置のマイクを介して入力するユーザ音声が含まれる場合、前記ユーザ音声を強調する出力音声調整処理を実行する請求項６に記載の情報処理装置。
　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツの種類が音楽コンテンツである場合、
　前記音楽コンテンツの音楽再生音を強調する出力音声調整処理を実行する請求項６に記載の情報処理装置。
　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツのシーンに応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する請求項６に記載の情報処理装置。
　前記第２出力音声調整部は、
　前記通信部を介して出力するコンテンツのシーンに応じた出力音声調整処理の実行対象として、
　（ａ）前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
　（ｂ）前記情報処理装置のマイクを介して入力するユーザ音声、
　（ｃ）前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
　上記（ａ）～（ｃ）の少なくとも１つ以上の音声を選択し、選択音声の出力音声調整処理を実行する請求項６に記載の情報処理装置。
　前記情報処理装置は、
　前記通信部を介して出力するコンテンツのシーンを判別するシーン判別部を有し、
　前記シーン判別部は、
　前記情報処理装置で実行中のアプリの属性情報、または表示部の表示情報、または、マイクを介して入力するユーザの発話内容、または、前記コンテンツの視聴ユーザのコメントを解析してシーンを判別し、
　前記第２出力音声調整部は、
　前記シーン判別部による判別シーンに応じた出力音声調整処理を実行する請求項６に記載の情報処理装置。
　コンテンツを受信する通信部と、
　前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
　前記出力音声調整部は、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置。
　前記出力音声調整部は、
　前記音声出力機器特性情報として、音声出力部を構成する音声出力機器の周波数対応出力レベルの解析情報を生成し、
　音声出力機器の出力レベルが相対的に低い周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する請求項１３に記載の情報処理装置。
　前記出力音声調整部は、
　音声出力環境情報として、マイクを介して入力するノイズの周波数解析情報を生成し、
　ノイズに多く含まれる周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する請求項１３に記載の情報処理装置。
　情報処理装置において実行する情報処理方法であり、
　第１出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第１出力音声調整ステップと、
　音声合成部が、前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
　通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
　前記第１出力音声調整ステップにおいて、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法。
　情報処理装置において実行する情報処理方法であり、
　通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
　出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
　前記出力音声調整ステップにおいて、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　第１出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第１出力音声調整ステップと、
　音声合成部に、前記第１出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
　通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
　前記第１出力音声調整ステップにおいて、
　各音源の出力音声について周波数対応の音量レベルを解析し、
　各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラム。
　情報処理装置において情報処理を実行させるプログラムであり、
　通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
　出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
　前記出力音声調整ステップにおいて、
　音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラム。