WO2023026555A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2023026555A1
WO2023026555A1 PCT/JP2022/013429 JP2022013429W WO2023026555A1 WO 2023026555 A1 WO2023026555 A1 WO 2023026555A1 JP 2022013429 W JP2022013429 W JP 2022013429W WO 2023026555 A1 WO2023026555 A1 WO 2023026555A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
sound
adjustment
audio
unit
Prior art date
Application number
PCT/JP2022/013429
Other languages
English (en)
French (fr)
Inventor
宏一郎 高島
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023026555A1 publication Critical patent/WO2023026555A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/803Driving vehicles or craft, e.g. cars, airplanes, ships, robots or tanks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法を提供する。複数音源各々の出力音声の調整処理を実行する第1出力音声調整部と、第1出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第1出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第2出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。具体的には、例えば送信端末が複数音源からの出力音の合成音を生成して送信し、受信端末で合成音を再生する構成において、各音源の出力音のバランスなどを自動調整して送信する制御等を行う情報処理装置、および情報処理方法、並びにプログラムに関する。
 近年、スマホ(スマートフォン)やPC、ゲーム端末等の情報処理装置を利用した動画配信や、ゲームアプリ(アプリケーション)の実況を伴うゲーム配信、あるいは音楽コンテンツの配信など、様々なコンテンツ配信処理が行われている。
 このようなネットワークを介したコンテンツ配信の多くは、画像データと音声データを併せて配信する。例えば、あるユーザがスマホ(スマートフォン)やPC、ゲーム端末等の情報処理装置を利用してゲームアプリの実況データを配信する場合、ゲームアプリのBGMなどのアプリ音声と、ゲーム実行者であるユーザの声を合成(ミキシング)して配信する処理が行われる。
 さらに、配信コンテンツであるゲーム実況コンテンツを受信し視聴する視聴ユーザが視聴端末でゲーム実況に対する応援コメントなどをテキスト入力し、このテキスト入力データを、ネットワークを介してゲーム配信端末に送信する処理が行われる場合がある。
 視聴端末側で入力されたテキストデータはネットワークを介してゲーム実行端末が受信する。
 ゲーム実行端末は、受信テキストを音声データに変換してコメント音声を生成し、生成したコメント音声をゲームアプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する処理が行われる。
 この場合、視聴端末側では、ゲームアプリのBGMなどのアプリ音声と、ゲーム実行者であるユーザの声、さらに、コメント音声、これら3種類の音声の合成音声が再生されることになる。
 このような複数の音声の合成音を再生する場合、合成音声に含まれる各音声の音量バランスが悪いと、1つの音源からの大きな音声によって、他の音源の音声データが聞き取れない場合がある。
 なお、複数音源の合成処理、再生処理について開示した従来技術として、例えば、特許文献1(国際公開WO2018/096954号公報)がある。
 特許文献1(国際公開WO2018/096954号公報)には、例えばオーケストラなど、複数の楽器の演奏データを再生する構成において、各楽器の位置に応じた再生音を生成する構成を開示している。
 しかし、上記の従来技術は、各音源(楽器)の位置を反映した再生音の生成を実現するものであり、各音源の音量の調整処理については言及していない。
 上述したように、ゲームアプリの実況を配信する場合、ゲームアプリのBGMなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して配信することになる。このような複数音源の出力音を合成して配信する場合に各音源の出力音の音量バランスが悪いと、1つの音源からの大きな音声によって、他の音源の音声が聞き取れないといった事態が発生する可能性がある。
国際公開WO2018/096954号公報
 本開示は、例えば、上記の問題点に鑑みてなされたものであり、例えば送信端末が複数音源からの出力音の合成音を生成して送信し、受信端末で合成音を再生する構成において、各音源の出力音のバランスなどを自動調整して送信する制御等を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整部と、
 前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
 前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
 前記第1出力音声調整部は、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置にある。
 さらに、本開示の第2の側面は、
 コンテンツを受信する通信部と、
 前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
 前記出力音声調整部は、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置にある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 第1出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整ステップと、
 音声合成部が、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
 通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 情報処理装置において実行する情報処理方法であり、
 通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
 出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 第1出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第1出力音声調整ステップと、
 音声合成部に、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
 通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラムにある。
 さらに、本開示の第6の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
 出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
 具体的には、例えば、複数音源各々の出力音声の調整処理を実行する第1出力音声調整部と、第1出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第1出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第2出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。
 これらの処理により、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
情報処理装置を利用したコンテンツ配信処理について説明する図である。 情報処理装置を利用したコンテンツ配信処理における音声データの合成と送信、再生処理の一例について説明する図である。 情報処理装置とサーバを利用したコンテンツ配信処理について説明する図である。 情報処理装置(送信端末)の構成例(実施例1)について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の構成例(実施例2)について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)が配信するコンテンツが音楽コンテンツである場合の配信処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の構成例(実施例3)について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の構成例(実施例4)について説明する図である。 情報処理装置(受信端末)の構成例(実施例5)について説明する図である。 情報処理装置(受信端末)の出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(受信端末)の出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(受信端末)の出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置のハードウェア構成例を示す図である。
 以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
 1.情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について
 2.(実施例1)本開示の実施例1の情報処理装置(送信端末)の構成と処理について
 3.(実施例2)配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について
  3-1.(処理例1)配信コンテンツがゲームコンテンツである場合の音声出力調整処理
  3-2.(処理例2)配信コンテンツが音楽コンテンツである場合の音声出力調整処理
 4.(実施例3)配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について
  4-1.(処理例1)シーン1=ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-2.(処理例2)シーン2=ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-3.(処理例3)シーン3=クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-4.(処理例4)シーン4=ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-5.(処理例5)シーン5=配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
 5.(実施例4)実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)の構成と処理について
 6.(実施例5)本開示の実施例5の情報処理装置(受信端末)の構成と処理について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について]
 まず、情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について説明する。
 本開示の情報処理装置は、具体的には、例えばスマホ(スマートフォン)やPC、ゲーム端末等の情報処理装置であり、インターネット等のネットワークを介した通信を行うことが可能な装置である。
 本開示の情報処理装置は、例えば、ネットワークを介した動画配信や、ゲームアプリ(アプリケーション)の実行によるゲームコンテンツや音楽コンテンツなどのコンテンツ配信を行うことが可能な装置である。
 図1は、本開示の情報処理装置を利用した情報処理システム10の一構成例を示す図である。
 図1には、本開示の情報処理装置の一例として、スマホ(スマートフォン)を利用した例を示している。
 情報処理装置(送信端末)100は、配信ユーザ(例えばゲーム実行プレーヤー)20の端末である。
 配信ユーザ(例えばゲーム実行プレーヤー)20は、情報処理装置(送信端末)100を利用してゲームアプリ(アプリケーション)を実行する。
 このゲームアプリ画面やゲームアプリ音声(アプリ音声)などからなるコンテンツは、インターネット等のネットワークを介して視聴ユーザ30の情報処理装置(受信端末)200に配信される。
 アプリ音声とは、例えば、アプリによって生成されるBGMや、ゲームアプリ内で発生する様々な音声である。例えば図に示す例は自動車レースのゲームアプリであり、自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声が含まれる。
 さらに、情報処理装置(送信端末)100を利用してゲームを実行するユーザ、すなわち配信ユーザ20は、実行中のゲームの実況を行う。すなわち情報処理装置(送信端末)100のマイクを介して、配信ユーザ20の声を入力して、ゲームの説明や状況の説明などを行う。
 この配信ユーザ20の声は、上述のアプリ音声とともに、視聴ユーザ30側の情報処理装置(受信端末)200に送信され、情報処理装置(受信端末)200側で再生される。
 さらに、視聴ユーザ30は、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力することが可能であり、この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 配信ユーザ20側の情報処理装置(送信端末)100は、情報処理装置(受信端末)200からの受信コメントを音声データに変換してコメント音声を生成し、生成したコメント音声も、アプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 配信ユーザ20側の情報処理装置(送信端末)100は、情報処理装置(受信端末)200から受信した音声コメントを、アプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する。
 このように、ゲームアプリのBGMなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して配信する場合、各音源の出力音の音量バランスが悪いと、情報処理装置(受信端末)200側の視聴ユーザ30は、各音源の音声を聞き取れなくなる場合がある。
 例えば、3種類の音源の中の1つの音源の音量が他の2つの音源の音量に比較して明らかに大きい場合、その大きな音源の音声によって、他の音源の音声データが聞き取れなくなる。
 図2を参照して具体例について説明する。
 図2において、配信ユーザ20側の情報処理装置(送信端末)100は、音声合成部において、
 (a)配信ユーザ音声
 (b)アプリ音声(アプリBGMなど)
 (c)視聴ユーザコメント音声
 これらの3種類の音源の音声データを合成した合成音声を生成して、ネットワークを介して視聴ユーザ30側の情報処理装置(受信端末)200に送信する。
 視聴ユーザ30側の情報処理装置(受信端末)200では、配信ユーザ20側の情報処理装置(送信端末)100から受信した合成音声をスピーカやイヤホンを介して出力する。
 ここで、例えば、(b)アプリ音声(アプリBGMなど)の音量が、他の2つの音声((a)配信ユーザ音声や(c)視聴ユーザコメント音声)に比較して明らかに大きい場合、視聴ユーザ30は、大きな音量のBGM音声によって、他の音源の音声データ、すなわち配信ユーザ音声や視聴ユーザコメントが聞き取れなくなる。
 本開示は、このような問題を解決するものである。
 例えば図1に示すような構成、すなわち、情報処理装置(送信端末)100から複数音源の出力音の合成データを生成して送信し、情報処理装置(受信端末)200で配信音声を再生する構成において、各音源の出力音のバランスを自動調整して送信、または再生する制御を行う。
 なお、図1の情報処理システム10は、情報処理装置(送信端末)100と複数の情報処理装置(受信端末)200間で、直接、データ送受信を行うシステムの構成例であるが、例えば図3に示すように、ネットワーク上の管理サーバ50を介してデータ送受信を行う構成としてもよい。
 図3に示す構成において、配信ユーザ20側の情報処理装置(送信端末)100は、データを管理サーバ50に送信する。視聴ユーザ30側の情報処理装置(受信端末)200は、管理サーバ50から、このデータを受信して視聴する。
 このようなシステム構成においても、配信ユーザ20側の情報処理装置(送信端末)100は、ゲームアプリの実行画面データと、ゲームアプリのBGMなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して管理サーバ50に送信する。視聴ユーザ30側の情報処理装置(受信端末)200は、管理サーバ50から、この合成音声データを、画像データとともに受信して視聴する。
 このような構成においても、3種類の音源の中の1つの音源の音量が他の2つの音源の音量に比較して明らかにに大きい場合、その大きな音源の音声によって、他の音源の音声データが聞き取れなくなる場合がある。
 本開示は、このような問題を解決するものである。
  [2.(実施例1)本開示の実施例1の情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例1の情報処理装置(送信端末)100の構成と処理について説明する。
 図4は、本開示の実施例1の情報処理装置(送信端末)100の構成例を示す図である。
 図4に示すように、情報処理装置(送信端末)100は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106を有する。
 なお、図4に示す構成は、情報処理装置(送信端末)100の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)100は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 マイク(第1音源)101は、情報処理装置(送信端末)100に備えられたマイクであり、例えば情報処理装置(送信端末)100を利用してゲームアプリを実行中の配信ユーザ20の声を入力して第1出力音声調整部104に入力する。
 なお、ここでは一例として、配信ユーザ20は、情報処理装置(送信端末)100において自動車レースのゲームアプリを実行しており、配信ユーザ20は、このゲームアプリの説明や実況を行っているものとする。
 図4に示すように、マイク(第1音源)101に入力された配信ユーザ音声は第1出力音声調整部104に入力される。
 アプリ音声再生部(第2音源)102は、情報処理装置(送信端末)100において実行中のアプリの再生音、図に示すアプリ音声を生成して第1出力音声調整部104に出力する。
 本例では、配信ユーザ20は、情報処理装置(送信端末)100において自動車レースのゲームアプリを実行しており、アプリ音声再生部(第2音源)102は、ゲームアプリによって生成されるBGMや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第1出力音声調整部104に出力する。
 コメント音声再生部(第3音源)103は、情報処理装置(送信端末)100から送信する画像や音声データを再生して視聴する視聴ユーザ30のコメントを再生する。
 視聴ユーザ30は、配信ユーザ20側の情報処理装置(送信端末)100から送信されるゲームアプリ実行画面や音声データを、視聴ユーザ30側の情報処理装置(受信端末)200で受信、再生しながら、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力する。
 この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 配信ユーザ20側の情報処理装置(送信端末)100のコメント音声再生部103は、情報処理装置(受信端末)200から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声(視聴ユーザコメント音声)を第1出力音声調整部104に出力する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 この場合、配信ユーザ20側の情報処理装置(送信端末)100のコメント音声再生部103は、情報処理装置(受信端末)200から受信した音声コメントを、そのまま第1出力音声調整部104に出力する。
 次に、第1出力音声調整部104の実行する処理について説明する。
 第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、各音源の音声データの出力調整処理を行う。
 図5を参照して、第1出力音声調整部104が実行する出力調整処理の具体例について説明する。
 図5には、第1出力音声調整部104が入力する3つの音源の音声データ各々について、
 (a)調整前の音声データ特性、
 (b)調整後の音声データ特性、
 これら、調整前後の音声特性データを示している。
 各音声データ特性は、横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図5の上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の(a)調整前の音声データ特性と(b)調整後の音声データ特性
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の(a)調整前の音声データ特性と(b)調整後の音声データ特性
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の(a)調整前の音声データ特性と(b)調整後の音声データ特性
 これら3音源の調整前後の音声データ特性を示している。
 第1出力音声調整部104は、これら3音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。
 なお、図に示すように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性(=グラフの曲線形状)は維持したまま、各音源の最大出力値を予め規定した調整目標レベル(Lx)に設定するように調整する。
 この調整処理により、3つの異なる音源からの出力(音量)がバランスされ、1つの音源の音量が他に比較して大きすぎて、1つの音源の音声のみが聞こえて他の音源の音声が聞き取れなくなるといった問題が低減される。
 すなわち、この調整処理により、3つの音声データの合成音を再生した場合、各音源の音声データをバランスよく聞き取ることができるようになる。
 第1出力音声調整部104は、図5に示す3つの音源に対応する(b)調整後(第1出力音声調整部からの出力)の音声データ特性を持つ3つの調整後音声データを生成し、この調整後音声データを音声合成部105に出力する。
 音声合成部105は、第1出力音声調整部104が生成した3音源の調整音声データ、すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の調整後の音声データ、
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整後の音声データ、
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整後の音声データ、
 これら3音源の調整後の音声データを合成(ミキシング)する。
 図6を参照して、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例について説明する。
 図6には、音声合成部105の入出力データとして、
 (a)合成前(音声合成部105への入力)
 (b)合成語(音声合成部105からの出力)
 これらのデータを示している。
 各グラフに示す音声データ特性は、横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 (a)合成前(音声合成部105への入力)のデータは、第1出力音声調整部104から入力する3つの音源の調整後音声特性データである。
 図6(a)の上から順に以下の3つの音源の調整後音声特性データを示している。
 (1)マイク(第1音源)101から入力した配信ユーザ音声の調整後音声特性データ
 (2)アプリ音声再生部(第2音源)102から入力したアプリ音声の調整後音声特性データ
 (3)コメント音声再生部(第3音源)103から入力した視聴ユーザコメント音声の調整後音声特性データ
 これら3音源の調整後音声データ特性を示している。
 なお、図6(a)合成前(音声合成部105への入力)として示す音声特性データ中、点線データは、第1出力音声調整部104における調整前の音声特性データであり、実線データが第1出力音声調整部104における調整処理後の音声特性データである。
 実線で示す第1出力音声調整部104における調整処理後の音声特性データ、すなわち最大出力が調整目標レベル(Lx)に調整されたデータが音声合成部105に対する入力データとなる。
 音声合成部105は、図6(a)の各グラフの実線データとして示す以下の各音声データ、すなわち、
 (1)マイク(第1音源)101から入力した配信ユーザ音声の調整後音声特性データ
 (2)アプリ音声再生部(第2音源)102から入力したアプリ音声の調整後音声特性データ
 (3)コメント音声再生部(第3音源)103から入力した視聴ユーザコメント音声の調整後音声特性データ
 これらの3音源の調整後音声データを合成(ミキシング)して1つの合成音声を生成する。
 図6(b)には、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図6(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図6(a)のグラフに実線で示す調整後音声特性データを示す曲線である。
 図6(b)に示すグラフから理解されるように、合成音声に含まれる3つの音源の各データの最大出力レベルはすべて調整目標レベル(Lx)に設定されている。
 すなわち3つの音源の出力は、平均化されており、突出した最大値を持つような音源データはない。
 従って、この合成音を再生した場合、3つの音源の音声データの音量レベルは、ほぼ同じレベルとなり、どれか1つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が解消されることになる。
 音声合成部105が生成した合成音声データは、通信部106を介して配信され、視聴ユーザ30側の情報処理装置(受信端末)200において再生される。
 視聴ユーザ30側の情報処理装置(受信端末)200において再生される合成音声データは、図6(b)に示すグラフ内の3つの曲線によって示される3つの音源の調整後音声特性データによって構成される合成音声データである。
 すなわち、
 (1)マイク(第1音源)101から入力した配信ユーザ音声の調整後音声特性データ
 (2)アプリ音声再生部(第2音源)102から入力したアプリ音声の調整後音声特性データ
 (3)コメント音声再生部(第3音源)103から入力した視聴ユーザコメント音声の調整後音声特性データ
 これらの3つの音源の調整後音声データによって構成される合成音声データとなる。
 前述したように、合成音声に含まれる3つの音源各々の出力レベルの最大値は調整目標レベル(Lx)に調整されており、突出した最大値を持つような音源データがないように調整されている。従って、視聴ユーザ30側の情報処理装置(受信端末)200において再生される合成音声内の3つの音源の音声データの最大音量レベルは、ほぼ同じレベルとなり、どれか1つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が発生する可能性が低減され、いずれの音源の音声データも平均的に聞き取ることが可能となる。
 なお、上記実施例において、第1出力音声調整部104は、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う処理例を説明したが、第1出力音声調整部104は、この調整例に限らず、その他の調整処理を行う構成としてもよい。
 第1出力音声調整部104が実行するその他の調整例について図7、図8を参照して説明する。
 図7は、第1出力音声調整部104の実行する調整処理と、音声合成部105の実行する合成処理をまとめて示した図である。
 (a)第1出力部104の調整処理
 (b)音声合成部105の合成処理
 これらの各処理を示している。
 図7(a)の第1出力部104の調整処理には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整処理例
 これら3つの音源からの出力音声の調整処理例を示している。
 各グラフ上の点線データが調整前の音声特性データ(周波数-レベル特性)であり、実線データが調整後の音声特性データ(周波数-レベル特性)である。
 図から理解されるように、第1出力音声調整部104は、これら3音源の出力音声に対する調整処理として、各音声の最大出力を、各音源に対応させて予め規定した音源固有の調整目標レベル(Lx,Ly,Lz)に、それぞれ設定する調整処理を実行する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声については、最大出力を、予め規定した配信ユーザ音声固有の調整目標レベル(Lx)に設定する調整処理を実行する。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声については、最大出力を、予め規定したアプリ音声固有の調整目標レベル(Ly)に設定する調整処理を実行する。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、最大出力を、予め規定した視聴ユーザコメント音声固有の調整目標レベル(Lz)に設定する調整処理を実行する。
 このように、第1出力音声調整部104は、これら3音源の出力音声に対する調整処理として、各音声の最大出力を、各音源に対応させて予め規定した固有の調整目標レベル(Lx,Ly,Lz)に、それぞれ設定する調整処理を実行する。
 図7(b)には、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図7(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図7(a)のグラフに実線で示す調整後音声特性に相当する。
 図7(b)に示すグラフから理解されるように、合成音声に含まれる3つの音源の各データの最大出力レベルは、各音源に対応させて予め規定した固有の調整目標レベル(Lx,Ly,Lz)に設定されている。
 この合成音を再生した場合、3つの音源の音声データの音量レベルの最大値は、調整前より減少しているため、どれか1つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が低減される。
 図8は、第1出力音声調整部104が実行する他の調整例について説明する図である。
 図8にも図7と同様、第1出力音声調整部104の実行する調整処理と、音声合成部105の実行する合成処理をまとめて示している。
 (a)第1出力部104の調整処理
 (b)音声合成部105の合成処理
 これらの各処理を示している。
 図8(a)の第1出力部104の調整処理には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整処理例
 これら3つの音源からの出力音声の調整処理例を示している。
 各グラフ上の点線データが調整前の音声特性データ(周波数-レベル特性)であり、実線データが調整後の音声特性データ(周波数-レベル特性)である。
 この図8に示す例は、第1出力音声調整部104は、3音源の出力音声に対する調整処理として、先に図7を参照して説明した調整処理と同様、各音声の最大出力を各音源固有の調整目標レベル(Lx,Ly,Lz)に設定する調整処理を実行するとともに、周波数の変化に応じた出力レベルの差分を減少させる調整処理を行う調整例である。
 すなわち、図8に示す例は、図7を参照して説明した調整処理に加え、以下の調整処理を行った例である。
 各音源の点線で示す調整前の音声特性データ(周波数-レベル特性)について、周波数の変化に応じた出力レベルの差分を減少させる調整処理を行い、曲線を均一化(フラット)になる方向に調整して、実線で示す調整後の音声特性データ(周波数-レベル特性)を生成している。
 このような周波数に応じた出力差分を減少させる調整を行うことで、特定周波数の大音量を抑制させることが可能となる。
 このように、図8に示す例は、第1出力音声調整部104は、3音源の出力音声に対する調整処理として、各音声の最大出力を各音源に対応させて予め規定した固有の調整目標レベル(Lx,Ly,Lz)に、それぞれ設定し、さらに周波数に応じた出力差分を減少させる調整処理を実行する。
 図8(b)には、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図8(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図8(a)のグラフに実線で示す調整後音声特性に相当する。
 図8(b)に示すグラフから理解されるように、合成音声に含まれる3つの音源の各データは、最大出力レベルが各音源対応の固有の調整目標レベル(Lx,Ly,Lz)に設定され、さらに周波数に応じた出力レベルの差分が減少している。
 この合成音を再生した場合、3つの音源の音声データの音量レベルの最大値は、調整前より減少し、さらに全周波数領域に渡りフラットな再生音が出力される。
 なお、上記実施例では、合成対象の音声データを以下の3つの音源の音声データとした例を説明した。
 (1)マイク(第1音源)101の入力音声
 (2)アプリ音声再生部(第2音源)102の再生音声
 (3)コメント音声再生部(第3音源)103の再生音声、
 配信ユーザ20側の情報処理装置(送信端末)100において合成、配信する音声データは、これら3つの音源の音声データに限られるものではない。例えば上記3つのうちの2つのみの音源の音声データの合成処理、配信処理を行う構成としてもよい。
 さらに、上記3つの音源以外の音源の音声データを合成、配信対象の音声データとして設定する構成も可能である。
  [3.(実施例2)配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例2として、配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について説明する。
 配信ユーザ20は、情報処理装置(送信端末)を利用して様々なコンテンツを配信することができる。
 例えば、ゲームコンテンツ、音楽コンテンツ、教育コンテンツ等、様々な異なる種類のコンテンツ対応アプリを実行して配信することが可能である。
 以下に説明する実施例2は、配信コンテンツの種類に応じて異なる音声出力調整処理を実行する情報処理装置(送信端末)の実施例である。
 図9は、本開示の実施例2の情報処理装置(送信端末)110の構成例を示す図である。
 図9に示すように、情報処理装置(送信端末)110は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106、さらに、コンテンツ種類判別部111、第2出力音声調整部112を有する。
 なお、図9に示す構成は、情報処理装置(送信端末)110の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)110は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 この第2実施例の情報処理装置(送信端末)110の構成は、先に図4を参照して説明した第1実施例の情報処理装置(送信端末)100の構成に、コンテンツ種類判別部111と、第2出力音声調整部112を追加した構成である。
 マイク(第1音源)101は、情報処理装置(送信端末)110に備えられたマイクであり、例えば情報処理装置(送信端末)110を利用してゲームアプリを実行中の配信ユーザ20の声を入力して第1出力音声調整部104に入力する。
 図9に示すように、マイク(第1音源)101に入力された配信ユーザ音声は第1出力音声調整部104に入力される。
 アプリ音声再生部(第2音源)102は、情報処理装置(送信端末)110において実行中のアプリの再生音、図に示すアプリ音声を生成して第1出力音声調整部104に出力する。
 例えば配信ユーザ20が、情報処理装置(送信端末)110において自動車レースのゲームアプリを実行している場合、アプリ音声再生部(第2音源)102は、ゲームアプリによって生成されるBGMや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第1出力音声調整部104に出力する。
 コメント音声再生部(第3音源)103は、情報処理装置(送信端末)110から送信する画像や音声データを再生して視聴する視聴ユーザ30のコメントを再生する。
 視聴ユーザ30は、配信ユーザ20側の情報処理装置(送信端末)110から送信されるアプリ実行画面や音声データを、視聴ユーザ30側の情報処理装置(受信端末)200で受信、再生しながら、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力する。
 この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)110に送信される。
 配信ユーザ20側の情報処理装置(送信端末)110のコメント音声再生部103は、情報処理装置(受信端末)200から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声(視聴ユーザコメント音声)を第1出力音声調整部104に出力する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 この場合、配信ユーザ20側の情報処理装置(送信端末)110のコメント音声再生部103は、情報処理装置(受信端末)200から受信した音声コメントを、そのまま第1出力音声調整部104に出力する。
 次に、第1出力音声調整部104は、先に説明した実施例1と同様の各音源の出力音声の調整処理を実行する。
 すなわち、第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、各音源の音声データの出力調整処理を行う。
 第1出力音声調整部104は、例えば先に図5を参照して説明した調整処理を実行する。
 すなわち、第1出力音声調整部104は、上記3つの音源の出力音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。
 なお、先に図5を参照して説明したように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性(=グラフの曲線形状)は維持したまま、各音源の最大出力値を予め規定した調整目標レベル(Lx)に設定するように調整する。
 この調整処理により、3つの異なる音源からの出力(音量)がバランスされ、1つの音源の音量が他に比較して大きすぎるといった問題が低減されることになる。
 第1出力音声調整部104は、図5に示す3つの音源に対応する(b)調整後(第1出力音声調整部からの出力)の音声データ特性を持つ3つの調整後音声データを生成し、この調整後音声データを第2出力音声調整部112に出力する。
 第2出力音声調整部112は、先に説明した実施例1にはない音声出力調整部である。
 第2出力音声調整部112は、配信ユーザ20が情報処理装置(送信端末)110において実行し、配信しているコンテンツの種類、例えばゲームコンテンツ、音楽コンテンツ、教育コンテンツ等、様々な異なる種類のコンテンツに応じた音声出力調整処理を実行する。
 第2出力音声調整部112は、コンテンツ種類判別部111から配信ユーザ20が情報処理装置(送信端末)110において実行し、配信しているコンテンツの種類に関する情報を入力し、入力したコンテンツ種類に応じた出力音声調整処理を行う。
 コンテンツの種類とは、例えば、ゲームコンテンツ、音楽コンテンツ、教育コンテンツ等のコンテンツの内容に応じた種類である。ゲームコンテンツを、さらにゲーム内容に応じてバトル型コンテンツ、レース型コンテンツなどに分類してもよい。
 コンテンツ種類判別部111は、例えば、情報処理装置(送信端末)110において起動され実行中のコンテンツのタイトルやカテゴリ等の属性情報を情報処理装置(送信端末)110内のメモリから読み取り、コンテンツ種類を判別して第2出力音声調整部112に通知する。
 なお、コンテンツ種類判別部111は、情報処理装置(送信端末)110内のメモリからコンテンツのタイトルやカテゴリ等の属性情報を取得できない場合、情報処理装置(送信端末)110を利用中の配信ユーザ20の属性情報(ハッシュタグ情報など)を情報処理装置(送信端末)110内のメモリから取得して、配信ユーザ20が好んで実行するコンテンツの種類を判別して第2出力音声調整部112に通知する処理を行ってもよい。
 あるいは、情報処理装置(送信端末)110内のメモリ内に記録されている配信履歴データを読み取って、この配信履歴データから推定されるコンテンツの種類を判別して第2出力音声調整部112に通知する処理を行ってもよい。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、コンテンツ種類判別部111から入力するコンテンツ種類に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 図10以下を参照して、第2出力音声調整部112が実行するコンテンツ種類に応じた出力調整処理と、音声合成部105が実行する音声合成処理の具体例について説明する。
 以下の2つの処理例について、順次、説明する。
 (処理例1)配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツがゲームコンテンツである場合の処理例
 (処理例2)配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツが音楽コンテンツである場合の処理例
  [3-1.(処理例1)配信コンテンツがゲームコンテンツである場合の音声出力調整処理]
 まず、図10、図11を参照して、配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツがゲームコンテンツである場合に、第2出力音声調整部112が実行するコンテンツ種類に応じた出力調整処理と、音声合成部105が実行する音声合成処理の具体例について説明する。
 まず、図10を参照して、配信コンテンツがゲームコンテンツである場合に実行される第1出力音声調整部104と、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図10には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図10には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図10(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図10(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図10(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 なお、以下では、第1出力音声調整部104における音声出力調整を「第1調整」、第2出力音声調整部112における音声出力調整を「第2調整」と定義して説明する。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図10(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、コンテンツ種類に応じた第2調整処理が実行される。
 図10に示す例は、配信コンテンツ種類=ゲームコンテンツである場合の調整処理例である。
 図10(b)が、配信コンテンツ種類=ゲームコンテンツである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図10(b)に示すように、配信コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は行わない。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、配信コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理のみ実行し、アプリ音声、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみに対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図10(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図11を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図11には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図11(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図10を参照して説明したように、配信コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図11(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図11(a)の中段と下段に示すアプリ音声再生部(第2音源)102から入力するアプリ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図11(a)の中段と下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図11(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図11(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図11(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図11(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図11(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図10、図11を参照して説明した処理例、すなわち、
 配信コンテンツ種類=ゲームコンテンツ
 である場合における第2出力音声調整部112の各音源音声の出力調整例は一例であり、配信コンテンツ種類=ゲームコンテンツにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図10、図11を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [3-2.(処理例2)配信コンテンツが音楽コンテンツである場合の音声出力調整処理]
 次に、図12以下を参照して、配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツが音楽コンテンツである場合の音声出力調整処理例について説明する。
 図12は、配信ユーザ20が情報処理装置(送信端末)110を用いて音楽コンテンツ再生アプリを実行して、配信している例を示している。
 情報処理装置(送信端末)110には、様々な楽曲を演奏、歌唱するミュージシャン、歌手などのパフォーマンス画像が再生される。この画像に併せて音楽コンテンツの音声データも再生される。
 これら音楽コンテンツの画像、音声は、ネットワークを介して視聴ユーザ30側の情報処理装置(受信端末)200においても再生される。
 音楽コンテンツの音声は、配信ユーザ20側の情報処理装置(送信端末)110のアプリ音声再生部(第2音源)102において再生されるアプリ音声である。
 ネットワークを介して配信される音声データは、このアプリ音声のみならず、マイク(第1音源)101から入力する配信ユーザ音声、さらに、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声がある。
 例えば図12に示す配信ユーザ20の発話である「元気がでる曲、みんなも聞いてね」、この配信ユーザ20の発話は情報処理装置(送信端末)110のマイクを介して入力されアプリ音声とともに配信される。
 さらに、図12に示す視聴ユーザ30のコメントとして示す「この曲、最高」、このコメントは、視聴ユーザ30が情報処理装置(受信端末)200にテキスト入力するコメントである。入力テキストはネットワークを介して情報処理装置(送信端末)110が受信し、受信テキストを音声データに変換してコメント音声を生成する。生成されたコメント音声も、アプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する処理が行われる。
 図9に示す情報処理装置(送信端末)110の第2出力音声調整部112は、配信コンテンツが音楽コンテンツである場合、この配信コンテンツ種類に応じて、上記3つの音源対応の音声データ(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)の出力調整処理を実行する。
 図13、図14を参照して、配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツが音楽コンテンツである場合に、第2出力音声調整部112が実行するコンテンツ種類に応じた出力調整処理と、音声合成部105が実行する音声合成処理の具体例について説明する。
 まず、図13を参照して、配信コンテンツが音楽コンテンツである場合に実行される第1出力音声調整部104と、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図13には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図13には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図13(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図13(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図13(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図13(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、コンテンツ種類に応じた第2調整処理が実行される。
 図13に示す例は、配信コンテンツ種類=音楽コンテンツである場合の調整処理例である。
 図13(b)が、配信コンテンツ種類=音楽コンテンツである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図13(b)に示すように、配信コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理は行わない。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、配信コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理のみ実行し、配信ユーザ音声、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、アプリ音声再生部(第2音源)102から入力するアプリ音声のみに対して、出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図13(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図14を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図14には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図14(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図13を参照して説明したように、配信コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、アプリ音声再生部(第2音源)102から入力するアプリ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図14(a)の中段に示すアプリ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図14(a)の上段と下段に示すマイク(第1音源)101から入力する配信ユーザ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図14(a)の上段と下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図14(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図14(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図14(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図14(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104のみにおいて1つの調整処理が実行された第1調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図14(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図13、図14を参照して説明した処理例、すなわち、
 配信コンテンツ種類=音楽コンテンツ
 である場合における第2出力音声調整部112の各音源音声の出力調整例は一例であり、配信コンテンツ種類=音楽コンテンツの場合に上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図13、図14を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4.(実施例3)配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例3として、配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について説明する。
 配信ユーザ20は、情報処理装置(送信端末)を利用して、上述したように様々なアプリに応じたコンテンツを実行して配信する。さらに、1つのアプリの実行中にも、様々なシーンが発生する。
 例えば先に実施例1として説明したゲームアプリの一例である自動車レースのゲームコンテンツであれば、ゲームの開始前、開始後、ゲーム終了後など様々な異なるシーンが発生する。
 ゲームとしての自動車レースの実行中にも、クラッシュなどの事故の場面、追い越すシーンなど、様々なシーンがある。
 以下に説明する実施例3は、シーンに応じて異なる音声出力調整処理を実行する情報処理装置(送信端末)の実施例である。
 図15は、本開示の実施例3の情報処理装置(送信端末)120の構成例を示す図である。
 図15に示すように、情報処理装置(送信端末)120は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106、さらに、シーン判別部121、第2出力音声調整部112を有する。
 なお、図15に示す構成は、情報処理装置(送信端末)120の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)120は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 この第3実施例の情報処理装置(送信端末)120の構成は、先に図4を参照して説明した第1実施例の情報処理装置(送信端末)100の構成に、シーン判別部121と、第2出力音声調整部112を追加した構成である。
 マイク(第1音源)101は、情報処理装置(送信端末)120に備えられたマイクであり、例えば情報処理装置(送信端末)120を利用してゲームアプリを実行中の配信ユーザ20の声を入力して第1出力音声調整部104に入力する。
 図15に示すように、マイク(第1音源)101に入力された配信ユーザ音声は第1出力音声調整部104に入力される。
 アプリ音声再生部(第2音源)102は、情報処理装置(送信端末)120において実行中のアプリの再生音、図に示すアプリ音声を生成して第1出力音声調整部104に出力する。
 例えば配信ユーザ20が、情報処理装置(送信端末)120において自動車レースのゲームアプリを実行している場合、アプリ音声再生部(第2音源)102は、ゲームアプリによって生成されるBGMや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第1出力音声調整部104に出力する。
 コメント音声再生部(第3音源)103は、情報処理装置(送信端末)120から送信する画像や音声データを再生して視聴する視聴ユーザ30のコメントを再生する。
 視聴ユーザ30は、配信ユーザ20側の情報処理装置(送信端末)120から送信されるアプリ実行画面や音声データを、視聴ユーザ30側の情報処理装置(受信端末)200で受信、再生しながら、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力する。
 この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)120に送信される。
 配信ユーザ20側の情報処理装置(送信端末)120のコメント音声再生部103は、情報処理装置(受信端末)200から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声(視聴ユーザコメント音声)を第1出力音声調整部104に出力する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 この場合、配信ユーザ20側の情報処理装置(送信端末)120のコメント音声再生部103は、情報処理装置(受信端末)200から受信した音声コメントを、そのまま第1出力音声調整部104に出力する。
 次に、第1出力音声調整部104は、先に説明した実施例1と同様の各音源の出力音声の調整処理を実行する。
 すなわち、第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、各音源の音声データの出力調整処理を行う。
 第1出力音声調整部104は、例えば先に図5を参照して説明した調整処理を実行する。
 すなわち、第1出力音声調整部104は、上記3つの音源の出力音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。
 なお、先に図5を参照して説明したように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性(=グラフの曲線形状)は維持したまま、各音源の最大出力値を予め規定した調整目標レベル(Lx)に設定するように調整する。
 この調整処理により、3つの異なる音源からの出力(音量)がバランスされ、1つの音源の音量が他に比較して大きすぎるといった問題が低減されることになる。
 第1出力音声調整部104は、図5に示す3つの音源に対応する(b)調整後(第1出力音声調整部からの出力)の音声データ特性を持つ3つの調整後音声データを生成し、この調整後音声データを第2出力音声調整部112に出力する。
 第2出力音声調整部112は、先に説明した実施例1にはない音声出力調整部である。
 第2出力音声調整部112は、配信ユーザ20が情報処理装置(送信端末)120において実行し、配信しているコンテンツのシーンに応じた音声出力調整処理を実行する。
 例えば自動車レースのゲームアプリを実行して配信している場合であれば、ゲーム等のアプリの開始シーン、アプリ実行中の様々なシーン、例えば、クラッシュなどの事故の場面、追い越すシーンなどのシーン、さらにゲーム等のアプリ終了シーンなど、これら様々なシーンに応じた音声出力調整処理を実行する。
 第2出力音声調整部112は、シーン判別部121から配信ユーザ20が情報処理装置(送信端末)120において実行し、配信中のシーン情報を入力し、入力したシーン情報に応じた出力音声調整処理を行う。
 シーン判別部121が判別するシーンは、上述したように、例えばゲーム等のアプリの開始シーン、アプリ実行中の様々なシーン、例えば、クラッシュなどの事故の場面、追い越すシーンなどのシーン、さらにゲーム等のアプリ終了シーンなどである。
 シーン判別部121は、情報処理装置(送信端末)120において起動され実行中のアプリのシーンを判別してシーン判別情報を生成して第2出力音声調整部112に入力する。
 シーン判別部121は、例えば、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取り、この読み取った属性情報に基づいて、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別してシーン判別情報を生成して第2出力音声調整部112に出力する。
 あるいは、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別して、シーン判別情報を生成して第2出力音声調整部112に出力する構成としてもよい。
 さらに、シーン判別部121は、例えば、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別して、シーン判別情報を生成して第2出力音声調整部112に出力する構成としてもよい。
 例えば、配信ユーザ20が、
 「これからゲームを開始するよ」
 「みんな応援してね」
 このような発話を行った場合、シーン判別部121は、この配信ユーザ20の発話内容を解析して、ゲームアプリの開始シーンであると判別することができる。
 また、配信ユーザ20が、
 「さあ、追い抜いて先頭に立つぞ」
 このような発話を行った場合、シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリにおいて追い抜きシーンであると判別することができる。
 また、配信ユーザ20が、
 「やった、優勝した。みんな応援ありがとう」
 このような発話を行った場合、シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリの終了シーンであると判別することができる。
 このように、シーン判別部121は、ユーザ発話内容を解析して、シーン判別を行い、その結果としてのシーン判別情報を第2出力音声調整部112に出力する構成としてもよい。
 さらに、シーン判別部121は、例えば、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別して、シーン判別情報を生成して第2出力音声調整部112に出力する構成としてもよい。
 例えば、視聴ユーザ30から、
 「応援するよ、がんばってね」
 このようなコメントを受信した場合、シーン判別部121は、この視聴ユーザ30のコメント内容を解析して、ゲームアプリの開始シーンであると判別することができる。
 また、例えば、視聴ユーザ30から、
 「優勝やったね」
 このようなコメントを受信した場合、シーン判別部121は、この視聴ユーザ30のコメント内容を解析して、ゲームの終了シーンであると判別することができる。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 図16以下を参照して、本実施例3の具体的処理例、すなわち、シーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 なお、以下では、配信ユーザ20側の情報処理装置(送信端末)120において自動車レースのゲームアプリを実行して配信している場合の様々なシーンに応じた処理について説明する。
 以下の複数のシーンの判別処理と、判別シーンに応じた音声出力調整処理の具体例について、順次、説明する。
 (1)シーン1=ゲーム開始直前シーン
 (2)シーン2=ゲーム実行中シーン
 (3)シーン3=クラッシュ発生シーン
 (4)シーン4=ゲーム終了シーン
 (5)シーン5=配信終了シーン
  [4-1.(処理例1)シーン1=ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 まず、処理例1として、ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図16は、ゲーム開始シーンのシーン判別処理の具体例について説明する図である。
 前述したように、シーン判別部121は、例えば、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取り、この読み取った属性情報に基づいて、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 あるいは、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別する。あるいは、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別する。
 例えば、これらの様々な処理によってシーン判別処理を実行してシーン判別情報を生成し、第2出力音声調整部112に出力する。
 図16に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図16に示すように、情報処理装置(送信端末)120の表示部には、複数の自動車が[START]の文字が表示された位置に並んでいる画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームのアプリの開始シーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図16に示す例では、配信ユーザ20が、
 「ぼくは、一番手前の3番の車だよ、サーキットを3周してゴールだよ。みんな応援してね」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリの開始シーンであることを判別することができる。
 このように、シーン判別部121は、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取る。あるいは、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別する。あるいは、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別する。
 これらの少なくともいずれかの処理を行って、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図17、図18を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム開始直前シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図17は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム開始直前シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図17には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図17には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図17(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図17(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図17(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 なお、前述したように第1出力音声調整部104における音声出力調整を「第1調整」、第2出力音声調整部112における音声出力調整を「第2調整」と定義して説明する。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図17(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図17に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム開始直前シーン
 であると判別した場合の調整処理例である。
 図17(b)が、シーン=ゲーム開始直前シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図17(b)に示すように、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は行わない。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理のみ実行し、アプリ音声、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみに対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図17(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図18を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図18には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図18(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図17を参照して説明したように、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図18(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図18(a)の中段と下段に示すアプリ音声再生部(第2音源)102から入力するアプリ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図18(a)の中段と下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図18(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図18(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図18(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図18(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図18(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図17、図18を参照して説明した処理例、すなわち、
 シーン=ゲーム開始直前シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、ゲーム開始直前シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図17、図18を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-2.(処理例2)シーン2=ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例2として、ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図19は、ゲーム実行中のシーンのシーン判別処理の具体例について説明する図である。
 前述したように、シーン判別部121は、例えば、情報処理装置(送信端末)120で実行中のアプリの属性情報や、表示部に表示された画像、あるいは、マイクを介して入力する配信ユーザ20の発話内容、あるいは通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別する。
 例えば、これらの様々な処理によってシーン判別処理を実行してシーン判別情報を生成し、第2出力音声調整部112に出力する。
 図19に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図19に示すように、情報処理装置(送信端末)120の表示部には、複数の自動車が走行している画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームのアプリが実行中のシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図19に示す例では、配信ユーザ20が、
 「よ~し、一気に加速するぞ」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリが実行中であり、加速や追い越しをしようとしているシーンであることを判別することができる。
 このように、シーン判別部121は、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図20、図21を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム実行中シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図20は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム実行中シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図20には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図20には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図20(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図20(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図20(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図20(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図20に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム実行中シーン
 であると判別した場合の調整処理例である。
 図20(b)が、シーン=ゲーム実行中シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図20(b)に示すように、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理を実行し、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図20(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図21を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図21には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図21(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図20を参照して説明したように、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図21(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図21(a)の中段に示すアプリ音声のグラフにも、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図21(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図21(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図21(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図21(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図21(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図21(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図21(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図20、図21を参照して説明した処理例、すなわち、
 シーン=ゲーム実行中シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、ゲーム実行中シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図20、図21を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-3.(処理例3)シーン3=クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例3として、クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図22は、クラッシュ発生のシーンのシーン判別処理の具体例について説明する図である。
 図22に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図22に示すように、情報処理装置(送信端末)120の表示部には、自動車が衝突(クラッシュ)している画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースのゲーム実行中にクラッシュが発生したシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図22に示す例では、配信ユーザ20が、
 「うわ~」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリが実行中であり、何らかの事故(クラッシュ)が発生したシーンであることを判別することができる。
 このように、シーン判別部121は、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図23、図24を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=クラッシュ発生シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図23は、シーン判別部121が、シーン判別処理の結果として、
 シーン=クラッシュ発生シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図23には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図23には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図23(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図23(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図23(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図23(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図23に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=クラッシュ発生シーン
 であると判別した場合の調整処理例である。
 図23(b)が、シーン=クラッシュ発生シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図23(b)に示すように、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 ただし、このシーン3=クラッシュ発生シーンにおける配信ユーザ音声に対する第2調整処理の出力レベルの上昇度合は、先に図20を参照して説明したシーン2=ゲーム実行中シーンにおける上昇度合より抑制した設定としている。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理も全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 このシーン3=クラッシュ発生シーンにおけるアプリ音声に対する第2調整処理の出力レベルの上昇度合は、先に図20を参照して説明したシーン2=ゲーム実行中シーンにおける上昇度合とほぼ同様の設定としている。
 これは、クラッシュ時の衝突音を、より大きくするための調整処理である。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理を実行し、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図23(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図24を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図24には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図24(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図23を参照して説明したように、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図24(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図24(a)の中段に示すアプリ音声のグラフにも、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図24(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図24(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図24(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図24(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図24(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図24(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図24(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。
 本処理例では、アプリ音声に含まれるクラッシュ音や、配信ユーザ20の叫び声が、より強調されることになり、クラッシュ発生時の緊迫度を視聴者に強く伝える効果をもたらすものとなる。
 なお、図23、図24を参照して説明した処理例、すなわち、
 シーン=クラッシュ発生シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、クラッシュ発生シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図23、図24を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-4.(処理例4)シーン4=ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例4として、ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図25は、ゲーム終了のシーンのシーン判別処理の具体例について説明する図である。
 図25に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図25に示すように、情報処理装置(送信端末)120の表示部には、自動車がゴール(GOAL)ラインを通過している画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースのゲームが終了したシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図25に示す例では、配信ユーザ20が、
 「やった~、応援ありがとう」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリが実行中であり、何らかの事故(クラッシュ)が発生したシーンであることを判別することができる。
 また、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメントを解析してシーン判別を行うことも可能である。
 図25に示す例では、視聴ユーザ30が、
 「おめでとう、やったね」
 このようなコメントを送信している。
 シーン判別部121は、この視聴ユーザ30のコメントを解析して、自動車レースのゲームが終了したシーンであることを判別することができる。
 このように、シーン判別部121は、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取る。あるいは、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別する。あるいは、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメントを解析してシーンを判別する。
 これらの少なくともいずれかの処理を行って、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図26、図27を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図26は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図26には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図26には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図26(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図26(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図26(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図26(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図26に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム終了シーン
 であると判別した場合の調整処理例である。
 図26(b)が、シーン=ゲーム終了シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図26(b)に示すように、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は行わない。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理も全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 このように、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理を実行し、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図26(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図27を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図27には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図27(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図26を参照して説明したように、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図27(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図27(a)の中段に示すアプリ音声再生部(第2音源)102から入力するアプリ音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図27(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図27(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整前データ(細かい点線データ)
 (q)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図27(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図27(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図27(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図27(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図27(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声と視聴ユーザのコメント音声が、アプリ音声に比較して、より聞き取りやすい音声として出力されることになる。
 本処理例では、ゲーム終了時の配信ユーザ20と視聴ユーザ30間の会話、交流をスムーズに行えるように、アプリ音声を控えめとした設定とした調整処理例である。
 なお、図26、図27を参照して説明した処理例、すなわち、
 シーン=ゲーム終了シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、ゲーム終了シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図26、図27を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-5.(処理例5)シーン5=配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例5として、配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図28は、配信終了シーンのシーン判別処理の具体例について説明する図である。
 図28に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図28に示すように、情報処理装置(送信端末)120の表示部には、ゲームアプリの結果情報が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームアプリの配信が終了するシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図28に示す例では、配信ユーザ20が、
 「じゃあ、またね~!応援ありがとう」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリの配信が終了するシーンであることを判別することができる。
 このように、シーン判別部121は、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図29、図30を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=配信終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図29は、シーン判別部121が、シーン判別処理の結果として、
 シーン=配信終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図29には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図29には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図29(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図29(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図29(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図29(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図29に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=配信終了シーン
 であると判別した場合の調整処理例である。
 図29(b)が、シーン=配信終了シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図29(b)に示すように、シーン=配信終了シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理として、全体的に出力レベルを上昇させるような出力調整を行う。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=配信終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理を実行し、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=配信終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図29(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図30を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図30には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図30(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図29を参照して説明したように、シーン=配信終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図30(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図30(a)の中段に示すアプリ音声のグラフにも、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図30(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図30(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図30(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図30(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図30(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図30(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図30(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図29、図30を参照して説明した処理例、すなわち、
 シーン=配信終了シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、配信終了シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図29、図30を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
 以上、説明したように、本開示の情報処理装置(送信端末)は、配信コンテンツの配信シーンに応じた音声出力調整を実行し、シーンに応じた最適な合成音声を生成して配信する処理を実現する。
  [5.(実施例4)実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例4として、上述した実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)の構成と処理について説明する。
 先に説明した実施例1~実施例3は、以下の処理を実行する実施例である。
 (実施例1)図4を参照して説明したように第1出力音声調整部104において、複数音源各々の出力音声を調整して、調整後の各音源出力音声を合成して配信する。
 (実施例2)図9を参照して説明したように、第1出力音声調整部104において、複数音源各々の出力音声を調整し、さらに第2出力音声調整部104において、配信コンテンツの種類に応じた音声出力調整を実行し、これらの2段階の調整後の各音源出力音声を合成して配信する。
 (実施例3)図15を参照して説明したように、第1出力音声調整部104において、複数音源各々の出力音声を調整し、さらに第2出力音声調整部104において、配信コンテンツの配信シーンに応じた音声出力調整を実行し、これらの2段階の調整後の各音源出力音声を合成して配信する。
 以下に説明する実施例4は、上述した実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)である。
 図31は、本開示の実施例4の情報処理装置(送信端末)130の構成例を示す図である。
 図31に示すように、情報処理装置(送信端末)130は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106、さらに、コンテンツ種類判別部111、第2出力音声調整部112、シーン判別部121を有する。
 これらの構成部各々は、先に実施例1~3において説明したと同様の構成である。
 なお、図31に示す構成は、情報処理装置(送信端末)130の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)130は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 この第4実施例の情報処理装置(送信端末)130の構成は、先に図4を参照して説明した第1実施例の情報処理装置(送信端末)100、および、
 図9を参照して説明した第2実施例の情報処理装置(送信端末)110、および、
 図15を参照して説明した第3実施例の情報処理装置(送信端末)120、
 これらの各実施例の装置の構成をすべて含む情報処理装置である。
 この実施例4の情報処理装置(送信端末)130は、以下の各処理を実行することが可能な構成を持つ。
 (a)実施例1において説明した第1出力音声調整部104における音源各々の出力音声の調整処理、
 (b)実施例2において説明した第2出力音声調整部112における配信コンテンツの種類に応じた音源各々の出力音声の調整処理、
 (c)実施例3において説明した第2出力音声調整部112における配信シーンに応じた音源各々の出力音声の調整処理、
 図31に示す実施例4の情報処理装置(送信端末)130は、これらの処理を併せて実行、あるいは選択的に実行することが可能な構成を持つ。
 すなわち、第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、例えば先に図5を参照して説明したように、3つの音源の出力音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。あるいは図7、図8を参照して説明した調整処理などを実行する。
 この処理は、先に図4~図8を参照して説明した実施例1の処理に対応する処理である。
 第2出力音声調整部112は、コンテンツ種類判別部111から配信ユーザ20が情報処理装置(送信端末)110において実行、配信しているコンテンツの種類情報を入力し、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、コンテンツ種類に応じた出力音声調整処理を行う。
 この処理は、先に図9~図14を参照して説明した実施例2の処理に対応する処理である。
 さらに、第2出力音声調整部112は、シーン判別部121から配信ユーザ20が情報処理装置(送信端末)110において実行、配信しているアプリのシーン情報を入力し、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーンに応じた出力音声調整処理を行う。
 この処理は、先に図15~図30を参照して説明した実施例3の処理に対応する処理である。
 このように、図31に示す情報処理装置(送信端末)130は、上記の実施例1~3の処理を併せて実行、あるいは選択的に実行することが可能な構成を持つ。
  [6.(実施例5)本開示の実施例5の情報処理装置(受信端末)の構成と処理について]
 次に、本開示の実施例5として、配信コンテンツを受信する側の情報処理装置(受信端末)200の構成と処理について説明する。
 図32は、本開示の実施例5の情報処理装置(受信端末)200の構成例を示す図である。
 図32に示すように、情報処理装置(受信端末)200は、通信部201、出力音声調整部202、音声出力部203、マイク204、音声出力機器特性解析部205、音声出力環境解析部206を有する。
 なお、図32に示す構成は、情報処理装置(受信端末)200の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(受信端末)200は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 通信部201は、コンテンツ配信を実行する情報処理装置(送信端末)の送信データを受信する。
 また、情報処理装置(受信端末)200側の視聴ユーザ30が入力したコメントの送信処理なども実行する。
 出力音声調整部202は、情報処理装置(送信端末)の送信データに含まれる音声データの出力調整処理を実行する。
 この音声出力調整処理の詳細については後段で説明する。
 音声出力部203は、スピーカ等によって構成される音声出力部であり、出力音声調整部202において調整された音声の出力処理を行う。
 マイク204は、視聴ユーザ30の声や、周囲のノイズなどの環境音を取得し、音声出力環境解析部206に入力する。
 音声出力機器特性解析部205は、音声出力部203を構成するスピーカなどの音声出力機器の機器特性を解析する。例えばスピーカ出力音の周波数特性などを解析する。解析情報は出力音声調整部202に入力される。
 音声出力環境解析部206は、マイク204から視聴ユーザ30の声や、周囲のノイズなどの環境音を入力し、情報処理装置(送信端末)から配信されるコンテンツの視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報を解析する。解析情報は出力音声調整部202に入力される。
 次に、図33以下を参照して出力音声調整部202が実行する出力音声調整処理の具体例について説明する。
 出力音声調整部202は、以下の各情報を入力する。
 (1)音声出力機器特性解析部205から、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性
 (2)音声出力環境解析部206から、マイク204の入力音に基づく音声出力環境情報
 音声出力機器特性解析部205から入力するスピーカなどの音声出力機器対応の音声出力機器特性とは、例えばスピーカ出力音の周波数特性などの特性である。
 また、音声出力環境解析部206から入力する音声出力環境情報とは、視聴ユーザ30の声や、周囲のノイズなどの環境音などによって解析される情報であり、コンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。
 出力音声調整部202は、これらの入力情報に基づいて、通信部201を介して入力する音声、すなわち情報処理装置(送信端末)が送信する配信コンテンツに含まれる音声の出力調整処理を実行する。
 図33は、出力音声調整部202が、音声出力機器特性解析部205から、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性を入力して実行する出力音声調整処理の具体例を説明する図である。
 図33左下の「(a)受信音声周波数特性」は、通信部201が受信する音声データの特性を示すグラフである。すなわち、配信ユーザ20側の情報処理装置(送信端末)100が配信するコンテンツの音声データの特性である。
 横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データを示している。
 なお、情報処理装置(受信端末)200の通信部201が受信する音声データは、配信ユーザ20側の情報処理装置(送信端末)100の複数の音源対応の音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)の合成音声データであり、先に説明した実施例1~4のいずれかの処理によって調整された音声データである。
 図33に示すように、出力音声調整部202は、図33左下の「(a)受信音声周波数特性」に示す特性を有する音声データを、通信部201を介して入力する。
 さらに、出力音声調整部202は、音声出力機器特性解析部205から、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性を入力する。
 音声出力機器特性解析部205は、音声出力部203の特性を解析する。
 音声出力機器特性解析部205が解析した音声出力部203の特性の一例が、図33上段に示す「(b)音声出力機器特性」である。
 図33上段に示す「(b)音声出力機器特性」は、高周波領域の出力が他の周波数領域に比較して相対的に弱いという特徴を持つ。
 出力音声調整部202は、音声出力機器特性解析部205が解析した音声出力部203の特性「(b)音声出力機器特性」に基づいて、通信部201を介して送信端末から受信した音声データの出力調整を実行する。
 例えば、通信部201を介して送信端末から受信した音声データの特性である「(a)受信音声周波数特性」を調整し、図33右下の「(c)出力音声周波数特性」を持つ音声データとする調整処理を実行する。
 図33右下の「(c)出力音声周波数特性」には、調整前データ(点線)と、調整後データ(実線)を示している。
 調整後データ(実線)は、調整前データ(点線)の高周波領域の出力レベルを上昇させた音声特性を有するデータであり、出力音声調整部202は、送信端末から受信した音声データの高周波領域の出力レベルを上昇(ゲインアップ)させる音声調整処理を実行したことを示している。
 出力音声調整部202によるこのような出力音声調整処理によって、音声出力部(スピーカ)203を介して出力される音声は、元の受信データ((a)受信音声周波数特性)に比較して高周波領域が聞き取りやすい音声データとして出力されることになる。
 次に、図34を参照して、出力音声調整部202が、音声出力環境解析部206から、マイク204の入力音に基づく音声出力環境情報を入力して実行する出力音声調整処理の具体例について説明する。
 出力音声調整部202は、音声出力環境解析部206から視聴ユーザ30の声や、周囲のノイズなどの環境音などの解析情報である音声出力環境情報を入力する。例えばコンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。
 出力音声調整部202は、この入力情報に基づいて、通信部201を介して入力する音声、すなわち情報処理装置(送信端末)が送信する配信コンテンツに含まれる音声の出力調整処理を実行する。
 図34左上の「(a)受信音声周波数特性」は、通信部201が受信する音声データの特性を示すグラフである。すなわち、配信ユーザ20側の情報処理装置(送信端末)100が配信するコンテンツの音声データの特性である。
 横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データを示している。
 なお、情報処理装置(受信端末)200の通信部201が受信する音声データは、配信ユーザ20側の情報処理装置(送信端末)100の複数の音源対応の音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)の合成音声データであり、先に説明した実施例1~4のいずれかの処理によって調整された音声データである。
 図34に示すように、出力音声調整部202は、図34左上の「(a)受信音声周波数特性」に示す特性を有する音声データを、通信部201を介して入力する。
 さらに、出力音声調整部202は、音声出力環境解析部206から、マイク204の入力音に基づいて解析される音声出力環境情報を入力する。
 音声出力環境解析部206は、マイク204の入力音に基づいて、視聴ユーザ30の声や、周囲のノイズなどの環境音など、環境音の解析処理を実行する。例えばコンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。
 音声出力環境解析部206が解析した環境ノイズ特性の一例が、図34下段に示す「(b)環境ノイズ特性」である。
 図34下段に示す「(b)環境ノイズ特性」は、低周波領域のノイズが他の周波数領域に比較して相対的に強いという特徴を持つ。
 これは、例えば風が吹いている状態などによって発生する。
 出力音声調整部202は、音声出力環境解析部206が解析した「(b)環境ノイズ特性」に基づいて、通信部201を介して送信端末から受信した音声データの出力調整を実行する。
 例えば、通信部201を介して送信端末から受信した音声データの特性である「(a)受信音声周波数特性」を調整し、図34右上の「(c)出力音声周波数特性」を持つ音声データとする調整処理を実行する。
 図34右上の「(c)出力音声周波数特性」には、調整前データ(点線)と、調整後データ(実線)を示している。
 調整後データ(実線)は、調整前データ(点線)の低周波領域の出力レベルを上昇させた音声特性を有するデータであり、出力音声調整部202は、送信端末から受信した音声データの低周波領域の出力レベルを上昇(ゲインアップ)させる音声調整処理を実行したことを示している。
 出力音声調整部202による、この出力音声調整処理によって、音声出力部(スピーカ)203を介して出力される音声は、風が吹いている環境でも低周波領域が聞き取りやすい音声データとして出力されることになる。
 なお、図33、図34では、出力音声調整部202による出力音声調整処理例として、以下の2種類の出力音声調整処理を個別に説明した。
 (1)音声出力機器特性解析部205から入力する、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性に基づく出力音声調整処理
 (2)音声出力環境解析部206から入力する、マイク204の入力音に基づく音声出力環境情報に基づく出力音声調整処理
 出力音声調整部202は、これら2つの処理は併せて実行することが可能である。
 図35は、図33、図34を参照して説明した2つの処理を併せて実行する処理例を説明する図である。
 図35の上段には、以下の各音声特性図を示している。
 (A1)受信音声周波数特性
 (A2)第1調整後音声特性(=音声出力機器特性解析部205から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性)
 (A3)第2調整後音声特性(=音声出力環境解析部206から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性)
 また、図35の下段には、以下の2つの特性図を示している。
 (B1)音声出力機器特性解析部205から入力する音声出力機器特性
 (B2)音声出力環境解析部206から入力する環境ノイズ特性
 出力音声調整部202は、
 「(B1)音声出力機器特性解析部205から入力する音声出力機器特性」
 に基づいて、
 「(A1)受信音声周波数特性」の調整処理を実行して、
 「(A2)第1調整後音声特性(=音声出力機器特性解析部205から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性)」を生成する。
 さらに、
 「(B2)音声出力環境解析部206から入力する環境ノイズ特性」
 に基づいて、
 「(A2)第1調整後音声特性(=音声出力機器特性解析部205から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性)」
をさらに調整して、
 「(A3)第2調整後音声特性(=音声出力環境解析部206から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性)」を生成する。
 この2段階の調整後のデータ、すなわち、
 「(A3)第2調整後音声特性(=音声出力環境解析部206から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性)」を持つ音声データが音声出力部(スピーカ)203を介して出力される。
 音声出力部(スピーカ)203を介して出力される音声データは、元の受信データ((A1)受信音声周波数特性)に比較して高周波領域が聞き取りやすく、また風が吹いている環境でも低周波領域が聞き取りやすい音声データとして出力されることになる。
 このように、本開示の実施例5である配信コンテンツを受信する側の情報処理装置(受信端末)200は、スピーカ等の音声出力機器の機器特性や、環境ノイズ特性に基づく出力音声調整処理を実行して調整後の音声をスピーカ等の音声出力機器を介して出力する。
 この処理により、聞き取りやすい音声特性(周波数特性)を持つ音声データの出力が実現される。
  [7.情報処理装置のハードウェア構成例について]
 次に、図36を参照して本開示の情報処理装置、すなわち送信端末や受信端末として利用され情報処理装置のハードウェア構成例について説明する。
 図36は、本開示の情報処理装置、すなわち送信端末や受信端末として利用される情報処理装置のハードウェア構成の一例を示す図である。
 図36に示すハードウェアの構成要素について説明する。
 CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
 CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部306、表示部やスピーカなどに対するデータ出力を実行する出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。
 入出力インタフェース305に接続されている記憶部308は、例えばフラッシュメモリ、ハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整部と、
 前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
 前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
 前記第1出力音声調整部は、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置。
 (2) 前記第1出力音声調整部は、
 各音源の出力音声の周波数対応音量レベルの最大値を、前記複数音源に共通の1つの目標レベルに一致させる出力音声調整処理を実行する(1)に記載の情報処理装置。
 (3) 前記第1出力音声調整部は、
 各音源の出力音声の周波数対応音量レベルの最大値を、各音源固有の目標レベルに一致させる出力音声調整処理を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記第1出力音声調整部は、
 各音源の出力音声の周波数対応の音量レベル差分を減少させる出力音声調整処理を実行する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記複数音源の出力音声は、
 (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
 (b)前記情報処理装置のマイクを介して入力するユーザ音声、
 (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
 上記(a)~(c)の少なくとも2つ以上の音声を含む(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記情報処理装置は、さらに、
 前記通信部を介して出力するコンテンツの種類、またはコンテンツのシーンに応じて各音源の出力音声の出力音声調整処理を実行する第2出力音声調整部を有する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツの種類に応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する(6)に記載の情報処理装置。
 (8) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツの種類がゲームコンテンツであり、
 前記複数音源の出力音声として、前記情報処理装置のマイクを介して入力するユーザ音声が含まれる場合、前記ユーザ音声を強調する出力音声調整処理を実行する(6)または(7)に記載の情報処理装置。
 (9) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツの種類が音楽コンテンツである場合、
 前記音楽コンテンツの音楽再生音を強調する出力音声調整処理を実行する(6)~(8)いずれかに記載の情報処理装置。
 (10) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツのシーンに応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する(6)~(9)いずれかに記載の情報処理装置。
 (11) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツのシーンに応じた出力音声調整処理の実行対象として、
 (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
 (b)前記情報処理装置のマイクを介して入力するユーザ音声、
 (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
 上記(a)~(c)の少なくとも1つ以上の音声を選択し、選択音声の出力音声調整処理を実行する(6)~(10)いずれかに記載の情報処理装置。
 (12) 前記情報処理装置は、
 前記通信部を介して出力するコンテンツのシーンを判別するシーン判別部を有し、
 前記シーン判別部は、
 前記情報処理装置で実行中のアプリの属性情報、または表示部の表示情報、または、マイクを介して入力するユーザの発話内容、または、前記コンテンツの視聴ユーザのコメントを解析してシーンを判別し、
 前記第2出力音声調整部は、
 前記シーン判別部による判別シーンに応じた出力音声調整処理を実行する(6)~(11)いずれかに記載の情報処理装置。
 (13) コンテンツを受信する通信部と、
 前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
 前記出力音声調整部は、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置。
 (14) 前記出力音声調整部は、
 前記音声出力機器特性情報として、音声出力部を構成する音声出力機器の周波数対応出力レベルの解析情報を生成し、
 音声出力機器の出力レベルが相対的に低い周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する(13)に記載の情報処理装置。
 (15) 前記出力音声調整部は、
 音声出力環境情報として、マイクを介して入力するノイズの周波数解析情報を生成し、
 ノイズに多く含まれる周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する(13)または(14)に記載の情報処理装置。
 (16) 情報処理装置において実行する情報処理方法であり、
 第1出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整ステップと、
 音声合成部が、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
 通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法。
 (17) 情報処理装置において実行する情報処理方法であり、
 通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
 出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法。
 (18) 情報処理装置において情報処理を実行させるプログラムであり、
 第1出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第1出力音声調整ステップと、
 音声合成部に、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
 通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラム。
 (19) 情報処理装置において情報処理を実行させるプログラムであり、
 通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
 出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラム。
 明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
 具体的には、例えば、複数音源各々の出力音声の調整処理を実行する第1出力音声調整部と、第1出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第1出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第2出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。
 これらの処理により、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
  10 情報処理システム
  20 配信ユーザ
  30 視聴ユーザ
 100,110,120,130 情報処理装置(送信端末)
 101 マイク(第1音源)
 102 アプリ音声再生部(第2音源)
 103 コメント音声再生部(第3音源)
 104 第1出力音声調整部
 105 音声合成部
 106 通信部
 111 コンテンツ種類判別部
 112 第2出力音声調整部
 121 シーン判別部
 200 情報処理装置(受信端末)
 201 通信部
 202 出力音声調整部
 203 音声出力部
 204 マイク
 205 音声出力機器特性解析部
 206 音声出力環境解析部
 301 CPU
 302 ROM
 303 RAM
 304 バス
 305 入出力インタフェース
 306 入力部
 307 出力部
 308 記憶部
 309 通信部
 310 ドライブ
 311 リムーバブルメディア

Claims (19)

  1.  複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整部と、
     前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
     前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
     前記第1出力音声調整部は、
     各音源の出力音声について周波数対応の音量レベルを解析し、
     各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置。
  2.  前記第1出力音声調整部は、
     各音源の出力音声の周波数対応音量レベルの最大値を、前記複数音源に共通の1つの目標レベルに一致させる出力音声調整処理を実行する請求項1に記載の情報処理装置。
  3.  前記第1出力音声調整部は、
     各音源の出力音声の周波数対応音量レベルの最大値を、各音源固有の目標レベルに一致させる出力音声調整処理を実行する請求項1に記載の情報処理装置。
  4.  前記第1出力音声調整部は、
     各音源の出力音声の周波数対応の音量レベル差分を減少させる出力音声調整処理を実行する請求項1に記載の情報処理装置。
  5.  前記複数音源の出力音声は、
     (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
     (b)前記情報処理装置のマイクを介して入力するユーザ音声、
     (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
     上記(a)~(c)の少なくとも2つ以上の音声を含む請求項1に記載の情報処理装置。
  6.  前記情報処理装置は、さらに、
     前記通信部を介して出力するコンテンツの種類、またはコンテンツのシーンに応じて各音源の出力音声の出力音声調整処理を実行する第2出力音声調整部を有する請求項1に記載の情報処理装置。
  7.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツの種類に応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する請求項6に記載の情報処理装置。
  8.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツの種類がゲームコンテンツであり、
     前記複数音源の出力音声として、前記情報処理装置のマイクを介して入力するユーザ音声が含まれる場合、前記ユーザ音声を強調する出力音声調整処理を実行する請求項6に記載の情報処理装置。
  9.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツの種類が音楽コンテンツである場合、
     前記音楽コンテンツの音楽再生音を強調する出力音声調整処理を実行する請求項6に記載の情報処理装置。
  10.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツのシーンに応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する請求項6に記載の情報処理装置。
  11.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツのシーンに応じた出力音声調整処理の実行対象として、
     (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
     (b)前記情報処理装置のマイクを介して入力するユーザ音声、
     (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
     上記(a)~(c)の少なくとも1つ以上の音声を選択し、選択音声の出力音声調整処理を実行する請求項6に記載の情報処理装置。
  12.  前記情報処理装置は、
     前記通信部を介して出力するコンテンツのシーンを判別するシーン判別部を有し、
     前記シーン判別部は、
     前記情報処理装置で実行中のアプリの属性情報、または表示部の表示情報、または、マイクを介して入力するユーザの発話内容、または、前記コンテンツの視聴ユーザのコメントを解析してシーンを判別し、
     前記第2出力音声調整部は、
     前記シーン判別部による判別シーンに応じた出力音声調整処理を実行する請求項6に記載の情報処理装置。
  13.  コンテンツを受信する通信部と、
     前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
     前記出力音声調整部は、
     音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置。
  14.  前記出力音声調整部は、
     前記音声出力機器特性情報として、音声出力部を構成する音声出力機器の周波数対応出力レベルの解析情報を生成し、
     音声出力機器の出力レベルが相対的に低い周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する請求項13に記載の情報処理装置。
  15.  前記出力音声調整部は、
     音声出力環境情報として、マイクを介して入力するノイズの周波数解析情報を生成し、
     ノイズに多く含まれる周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する請求項13に記載の情報処理装置。
  16.  情報処理装置において実行する情報処理方法であり、
     第1出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整ステップと、
     音声合成部が、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
     通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
     前記第1出力音声調整ステップにおいて、
     各音源の出力音声について周波数対応の音量レベルを解析し、
     各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法。
  17.  情報処理装置において実行する情報処理方法であり、
     通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
     出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
     前記出力音声調整ステップにおいて、
     音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法。
  18.  情報処理装置において情報処理を実行させるプログラムであり、
     第1出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第1出力音声調整ステップと、
     音声合成部に、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
     通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
     前記第1出力音声調整ステップにおいて、
     各音源の出力音声について周波数対応の音量レベルを解析し、
     各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラム。
  19.  情報処理装置において情報処理を実行させるプログラムであり、
     通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
     出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
     前記出力音声調整ステップにおいて、
     音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラム。
PCT/JP2022/013429 2021-08-25 2022-03-23 情報処理装置、および情報処理方法、並びにプログラム WO2023026555A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-136869 2021-08-25
JP2021136869 2021-08-25

Publications (1)

Publication Number Publication Date
WO2023026555A1 true WO2023026555A1 (ja) 2023-03-02

Family

ID=85322683

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013429 WO2023026555A1 (ja) 2021-08-25 2022-03-23 情報処理装置、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023026555A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4826057B1 (ja) * 1968-06-22 1973-08-04
JP2002258842A (ja) * 2000-12-27 2002-09-11 Sony Computer Entertainment Inc 音声制御装置、音声制御方法、音声制御プログラム、音声制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体、音声制御プログラムを実行するプログラム実行装置
JP2003243952A (ja) * 2002-02-20 2003-08-29 Tdk Corp デジタルオーディオシステム、自動音量調整要素生成方法、自動音量調整方法、自動音量調整要素生成プログラム、自動音量調整プログラム、自動音量調整要素生成プログラムが記録された記録媒体及び自動音量調整プログラムが記録された記録媒体
JP2008228184A (ja) * 2007-03-15 2008-09-25 Funai Electric Co Ltd 音声出力装置
JP2012054863A (ja) * 2010-09-03 2012-03-15 Mitsubishi Electric Corp 音響再生装置
WO2018096954A1 (ja) 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2019180073A (ja) * 2018-03-30 2019-10-17 パナソニックIpマネジメント株式会社 音響システム、音響再生装置、および音響再生方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4826057B1 (ja) * 1968-06-22 1973-08-04
JP2002258842A (ja) * 2000-12-27 2002-09-11 Sony Computer Entertainment Inc 音声制御装置、音声制御方法、音声制御プログラム、音声制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体、音声制御プログラムを実行するプログラム実行装置
JP2003243952A (ja) * 2002-02-20 2003-08-29 Tdk Corp デジタルオーディオシステム、自動音量調整要素生成方法、自動音量調整方法、自動音量調整要素生成プログラム、自動音量調整プログラム、自動音量調整要素生成プログラムが記録された記録媒体及び自動音量調整プログラムが記録された記録媒体
JP2008228184A (ja) * 2007-03-15 2008-09-25 Funai Electric Co Ltd 音声出力装置
JP2012054863A (ja) * 2010-09-03 2012-03-15 Mitsubishi Electric Corp 音響再生装置
WO2018096954A1 (ja) 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2019180073A (ja) * 2018-03-30 2019-10-17 パナソニックIpマネジメント株式会社 音響システム、音響再生装置、および音響再生方法

Similar Documents

Publication Publication Date Title
KR102268933B1 (ko) 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
CN1972524B (zh) 再现音乐文件的方法和设备
US8532306B2 (en) Method and an apparatus of decoding an audio signal
JP4327886B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP5577787B2 (ja) 信号処理装置
WO2006008865A1 (ja) 音響特性調整装置
US20210247953A1 (en) System and Method for Manipulating and Transmitting Live Media
WO2019133942A1 (en) Voice-control soundbar loudspeaker system with dedicated dsp settings for voice assistant output signal and mode switching method
WO2023026555A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN112995854A (zh) 音频处理方法、装置及电子设备
US20120033835A1 (en) System and method for modifying an audio signal
CN114915874A (zh) 音频处理方法、装置、设备、介质及程序产品
CN114598917B (zh) 显示设备及音频处理方法
JP3554649B2 (ja) 音声処理装置とその音量レベル調整方法
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
CN112073890B (zh) 音频数据处理方法、装置和终端设备
CN115002649A (zh) 声场均衡调整方法、装置、设备和计算机可读存储介质
US20030071839A1 (en) Method of presenting adjustable multi-channel sound field when multimedia software is playing audio data
JP7359896B1 (ja) 音処理装置及びカラオケシステム
JPH1146394A (ja) 情報処理装置および方法、記録媒体、並びに伝送媒体
US11039263B2 (en) Wide effect sound producing method
WO2022215187A1 (ja) 音声再生システム、音声再生方法およびコンピュータプログラム
JP6819236B2 (ja) 音処理装置、音処理方法、及びプログラム
US10615765B2 (en) Sound adjustment method and system
JP6834398B2 (ja) 音処理装置、音処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22860853

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022860853

Country of ref document: EP

Effective date: 20240305

NENP Non-entry into the national phase

Ref country code: DE