WO2023026555A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2023026555A1
WO2023026555A1 PCT/JP2022/013429 JP2022013429W WO2023026555A1 WO 2023026555 A1 WO2023026555 A1 WO 2023026555A1 JP 2022013429 W JP2022013429 W JP 2022013429W WO 2023026555 A1 WO2023026555 A1 WO 2023026555A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
sound
adjustment
audio
unit
Prior art date
Application number
PCT/JP2022/013429
Other languages
English (en)
French (fr)
Inventor
宏一郎 高島
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023026555A1 publication Critical patent/WO2023026555A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/803Driving vehicles or craft, e.g. cars, airplanes, ships, robots or tanks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program. Specifically, for example, in a configuration in which a transmitting terminal generates and transmits a synthesized sound of output sounds from multiple sound sources and a receiving terminal reproduces the synthesized sound, the output sound balance of each sound source is automatically adjusted and transmitted.
  • the present invention relates to an information processing device, an information processing method, and a program that perform control, etc., to perform processing.
  • image data and audio data are distributed together.
  • an information processing device such as a smartphone (smartphone), a PC, a game terminal, etc.
  • the application sound such as BGM of the game application and the user who is the game executor
  • a process of synthesizing (mixing) and distributing the voice is performed.
  • a viewing user who receives and views game commentary content, which is distribution content, inputs text such as supportive comments for the game commentary on the viewing terminal, and transmits this text input data to the game distribution terminal via the network.
  • Text data input on the viewing terminal side is received by the game execution terminal via the network.
  • the game execution terminal converts the received text into voice data, generates a comment voice, and synthesizes (mixes) the generated comment voice with the game application voice and the voice of the game execution user for distribution.
  • an application sound such as the BGM of the game application, the voice of the user who is the game executor, and the comment sound, and a synthesized sound of these three kinds of sounds are reproduced.
  • an application sound such as the BGM of the game application, the voice of the user who is the game executor, and the comment sound, and a synthesized sound of these three kinds of sounds are reproduced.
  • Patent Document 1 International Publication No. WO2018/096954 discloses a conventional technique disclosing synthesis processing and reproduction processing of multiple sound sources.
  • Patent Literature 1 International Publication No. WO2018/096954 discloses a configuration for reproducing performance data of a plurality of musical instruments such as an orchestra, in which reproduced sounds are generated according to the position of each musical instrument.
  • the application sound such as BGM of the game application
  • the voice of the user executing the game the comment voice of the viewing user
  • the voice data of these multiple different sound sources are synthesized and distributed.
  • synthesizing and distributing output sounds from multiple sound sources if the volume balance of the output sounds from each sound source is poor, a situation occurs in which a loud sound from one sound source makes it difficult to hear the sounds from other sound sources. there is a possibility.
  • the present disclosure has been made, for example, in view of the above problems. It is an object of the present invention to provide an information processing device, an information processing method, and a program that automatically adjust the balance of the output sound of each sound source and perform control for transmission.
  • a first aspect of the present disclosure includes: a first output sound adjustment unit that receives output sounds from each of a plurality of sound sources and executes adjustment processing for output sounds from each sound source; a speech synthesizing unit that synthesizes the sound source corresponding output speech adjusted in the first output speech adjusting unit to generate synthetic speech data; a communication unit that outputs content including synthesized speech data generated by the speech synthesis unit; The first output audio adjustment unit, Analyze the volume level corresponding to the frequency for the output sound of each sound source, An information processing apparatus that executes output sound adjustment processing for matching the maximum value of the frequency-adapted sound volume level of the output sound of each sound source to a target level.
  • a second aspect of the present disclosure is a communication unit that receives content; an output audio adjustment unit that inputs audio data of content received by the communication unit and executes output audio adjustment processing;
  • the output audio adjustment unit An information processing apparatus that executes output audio adjustment processing based on at least one of audio output device characteristic information constituting an audio output unit and audio output environment information.
  • a third aspect of the present disclosure is An information processing method executed in an information processing device, a first output sound adjustment step in which the first output sound adjustment unit inputs the output sound of each of a plurality of sound sources and executes adjustment processing of the output sound of each sound source; a speech synthesizing step in which a speech synthesizing unit synthesizes the sound source corresponding output speech adjusted in the first output speech adjusting unit to generate synthetic speech data; the communication unit executing a communication step of outputting content including the synthesized speech data generated by the speech synthesis unit; In the first output audio adjusting step, Analyze the volume level corresponding to the frequency for the output sound of each sound source, An information processing method for executing output sound adjustment processing for matching the maximum value of the frequency-adaptive sound volume level of the output sound of each sound source to a target level.
  • a fourth aspect of the present disclosure is An information processing method executed in an information processing device, a communication step in which the communication unit receives the content via the network; an output audio adjustment unit executing an output audio adjustment step of inputting audio data of content received by the communication unit and executing an output audio adjustment process; In the output audio adjustment step, An information processing method for executing output audio adjustment processing based on at least one of audio output device characteristic information constituting an audio output unit and audio output environment information.
  • a fifth aspect of the present disclosure is A program for executing information processing in an information processing device, a first output sound adjustment step of inputting the output sound of each of the plurality of sound sources to the first output sound adjustment unit and executing the adjustment process of the output sound of each sound source; a speech synthesizing step of causing a speech synthesizing unit to synthesize the sound source corresponding output speech adjusted by the first output speech adjusting unit to generate synthetic speech data; cause the communication unit to execute a communication step of outputting content including the synthesized speech data generated by the speech synthesis unit;
  • the first output audio adjusting step Analyze the volume level corresponding to the frequency for the output sound of each sound source,
  • the program executes output sound adjustment processing for matching the maximum value of the frequency corresponding sound volume level of the output sound of each sound source to the target level.
  • a sixth aspect of the present disclosure is A program for executing information processing in an information processing device, a communication step of causing a communication unit to receive content via a network; causing an output audio adjustment unit to execute an output audio adjustment step of inputting audio data of content received by the communication unit and executing an output audio adjustment process;
  • a program for executing an output audio adjustment process based on at least one of audio output device characteristic information constituting an audio output unit and audio output environment information.
  • the program of the present disclosure is, for example, a program that can be provided in a computer-readable format to an information processing device or computer system capable of executing various program codes via a storage medium or communication medium.
  • processing according to the program is realized on the information processing device or computer system.
  • a system is a logical collective configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same housing.
  • a device that adjusts the sounds of multiple sound sources included in the distribution content from the information processing device and makes it easier to hear the sound of each sound source in a receiving terminal that receives and reproduces the distribution content
  • a method is realized.
  • content including a first output audio adjustment unit that executes adjustment processing for output audio of each of a plurality of sound sources, and synthesized audio data obtained by synthesizing the output audio corresponding to the sound source adjusted by the first output audio adjustment unit. to output
  • the first output sound adjusting section executes an output sound adjusting process of matching the maximum value of the frequency corresponding sound volume level of the output sound of each sound source to the target level.
  • the second output sound adjustment section executes output sound adjustment processing according to the type of content or the scene.
  • FIG. 4 is a diagram illustrating an example of synthesizing, transmitting, and reproducing processing of audio data in content distribution processing using an information processing device; It is a figure explaining the content distribution process using an information processing apparatus and a server.
  • 1 is a diagram illustrating a configuration example (first embodiment) of an information processing apparatus (transmitting terminal); FIG. It is a figure explaining the audio
  • FIG. 4 is a diagram illustrating an example of speech synthesis processing executed by a speech synthesis unit of an information processing device (transmitting terminal); FIG.
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 11 is a diagram illustrating a configuration example (second embodiment) of an information processing apparatus (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 10 is a diagram illustrating an example of distribution processing when content distributed by an information processing device (transmitting terminal) is music content;
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 11 is a diagram illustrating a configuration example (Example 3) of an information processing apparatus (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of scene determination processing executed by a scene determination unit of an information processing device (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 4 is a diagram illustrating an example of scene determination processing executed by a scene determination unit of an information processing device (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 4 is a diagram illustrating an example of scene determination processing executed by a scene determination unit of an information processing device (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 4 is a diagram illustrating an example of scene determination processing executed by a scene determination unit of an information processing device (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 4 is a diagram illustrating an example of scene determination processing executed by a scene determination unit of an information processing device (transmitting terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal);
  • FIG. 3 is a diagram illustrating an example of audio adjustment processing performed by a first output audio adjustment unit and a second output audio adjustment unit of an information processing device (transmitting terminal) and an example of audio synthesis processing performed by an audio synthesis unit;
  • FIG. 11 is a diagram illustrating a configuration example (fourth embodiment) of an information processing apparatus (transmitting terminal);
  • FIG. 11 is a diagram illustrating a configuration example (Example 5) of an information processing apparatus (receiving terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by an output audio adjustment unit of an information processing device (receiving terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by an output audio adjustment unit of an information processing device (receiving terminal);
  • FIG. 4 is a diagram illustrating an example of audio adjustment processing executed by an output audio adjustment unit of an information processing device (receiving terminal);
  • It is a figure which shows the hardware structural example of an information processing apparatus.
  • (Embodiment 3) Configuration and processing of information processing device (transmitting terminal) that executes audio output adjustment according to distribution scene of distribution content 4-1.
  • Scene 1 Specific example of scene discrimination processing of scene immediately before game start and audio output adjustment processing according to the discrimination scene 4-2.
  • Scene 2 Specific example of scene determination processing for a scene during game execution and audio output adjustment processing according to the determination scene 4-3.
  • Specific example of scene discrimination processing of scene 3 crash occurrence scene and audio output adjustment processing according to the discrimination scene 4-4.
  • the information processing device of the present disclosure is, specifically, an information processing device such as a smartphone (smartphone), a PC, a game terminal, etc., and is a device capable of communicating via a network such as the Internet.
  • the information processing device of the present disclosure is, for example, a device capable of distributing moving images via a network and distributing content such as game content and music content by executing a game application (application).
  • a game application application
  • FIG. 1 is a diagram showing a configuration example of an information processing system 10 using an information processing apparatus of the present disclosure.
  • FIG. 1 shows an example using a smart phone (smartphone) as an example of the information processing apparatus of the present disclosure.
  • An information processing device (transmitting terminal) 100 is a terminal of a distribution user (for example, a game executing player) 20 .
  • a distribution user (for example, a game executing player) 20 uses an information processing device (transmitting terminal) 100 to execute a game application (application).
  • the content including the game application screen and game application sound is distributed to the information processing device (receiving terminal) 200 of the viewing user 30 via a network such as the Internet.
  • the application sound is, for example, BGM generated by the application and various sounds generated within the game application.
  • the example shown in the figure is a car racing game application, which includes various sounds such as the sound of a car's engine, the cheers of spectators, and the sound of a crash.
  • a user who uses the information processing device (transmitting terminal) 100 to execute the game that is, the distribution user 20 gives commentary on the game being executed. That is, the voice of the distribution user 20 is input via the microphone of the information processing device (transmitting terminal) 100 to explain the game, the situation, and the like.
  • the voice of the distribution user 20 is transmitted to the information processing device (receiving terminal) 200 on the side of the viewing user 30 together with the above-described application voice, and reproduced on the information processing device (receiving terminal) 200 side.
  • the viewing user 30 can input a text comment such as a support message to the information processing device (receiving terminal) 200, and this input comment is transmitted via the network to the information processing device ( transmitted to the transmitting terminal) 100.
  • the information processing device (transmitting terminal) 100 on the side of the distribution user 20 converts the received comment from the information processing device (receiving terminal) 200 into voice data to generate comment voice, and the generated comment voice is also the application voice, Synthesized (mixed) with the voice of the game executing user and distributed.
  • the viewing user 30 may directly voice-input a comment such as a cheering message via the microphone of the information processing device (receiving terminal) 200 .
  • this input voice comment is transmitted to the information processing device (transmitting terminal) 100 on the distribution user 20 side via the network.
  • the information processing device (transmitting terminal) 100 on the distribution user 20 side synthesizes (mixes) the voice comment received from the information processing device (receiving terminal) 200 with the voice of the application and the voice of the user executing the game, and distributes them.
  • the volume of the output sound of each sound source is If the balance is poor, the viewing user 30 on the side of the information processing device (receiving terminal) 200 may not be able to hear the sound of each sound source.
  • the sound of the louder sound source makes the audio data of the other sound sources inaudible.
  • the information processing device (transmitting terminal) 100 on the side of the distribution user 20 has, in the speech synthesizing section, (a) Delivery user voice (b) Application voice (application BGM, etc.) (c) Viewing User Comment Voice A synthesized voice is generated by synthesizing the voice data of these three types of sound sources, and transmitted to the information processing device (receiving terminal) 200 on the viewing user 30 side via the network.
  • the information processing device (receiving terminal) 200 on the viewing user 30 side outputs the synthesized speech received from the information processing device (transmitting terminal) 100 on the distribution user 20 side via a speaker or an earphone.
  • a configuration as shown in FIG. 1 that is, a configuration in which synthesized data of output sounds from a plurality of sound sources is generated and transmitted from an information processing device (transmitting terminal) 100, and distributed audio is reproduced by an information processing device (receiving terminal) 200. , automatically adjusts the balance of the output sound of each sound source, and controls transmission or playback.
  • the information processing system 10 in FIG. 1 is an example of the configuration of a system in which data is directly transmitted and received between an information processing device (transmitting terminal) 100 and a plurality of information processing devices (receiving terminals) 200.
  • data transmission/reception may be performed via the management server 50 on the network.
  • the information processing device (transmission terminal) 100 on the distribution user 20 side transmits data to the management server 50.
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 receives this data from the management server 50 and views it.
  • the information processing device (transmitting terminal) 100 on the side of the distribution user 20 includes execution screen data of the game application, application sounds such as BGM of the game application, the voice of the user executing the game, and further , and the voice data of these different sound sources are synthesized and transmitted to the management server 50 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 receives the synthesized voice data together with the image data from the management server 50 and views it.
  • FIG. 4 is a diagram illustrating a configuration example of the information processing apparatus (transmitting terminal) 100 according to the first embodiment of the present disclosure.
  • an information processing apparatus (transmitting terminal) 100 includes a microphone (first sound source) 101, an application sound reproduction section (second sound source) 102, a comment sound reproduction section (third sound source) 103, a first output It has a voice adjustment unit 104 , a voice synthesis unit 105 and a communication unit 106 .
  • the configuration shown in FIG. 4 is a partial configuration of the information processing device (transmitting terminal) 100, and is a block diagram showing a configuration mainly applied to the audio output adjustment processing of the present disclosure.
  • the information processing apparatus (transmitting terminal) 100 has, in addition to the configuration shown in the drawing, components similar to those of a general smartphone (smartphone), such as a display unit, an input unit, a control unit, and a storage unit.
  • a microphone (first sound source) 101 is a microphone provided in the information processing device (transmitting terminal) 100, and for example, uses the information processing device (transmitting terminal) 100 to hear the voice of the distribution user 20 who is executing a game application. Then, it is input to the first output sound adjustment unit 104 .
  • the distribution user 20 is running a car racing game application on the information processing device (transmitting terminal) 100, and the distribution user 20 is explaining and commenting on this game application. do.
  • distribution user voice input to microphone (first sound source) 101 is input to first output voice adjustment section 104 .
  • the application sound reproduction unit (second sound source) 102 generates the reproduction sound of the application being executed in the information processing device (transmitting terminal) 100 , the application sound shown in the figure, and outputs it to the first output sound adjustment unit 104 .
  • the distribution user 20 is running a car racing game application in the information processing device (transmitting terminal) 100
  • the application sound reproduction unit (second sound source) 102 is configured to play background music generated by the game application.
  • Various sounds generated in the game such as the engine sound of a car, the cheers of spectators, and the sound of crashes, are generated as reproduced sounds and output to the first output sound adjustment unit 104 .
  • the comment audio reproduction unit (third sound source) 103 reproduces the comments of the viewing user 30 who reproduces and views the image and audio data transmitted from the information processing device (transmitting terminal) 100 .
  • the viewing user 30 receives and reproduces the game application execution screen and audio data transmitted from the information processing device (transmitting terminal) 100 on the distribution user 20 side by the information processing device (receiving terminal) 200 on the viewing user 30 side.
  • text-inputs a comment such as a support message to the information processing device (receiving terminal) 200 .
  • This input comment is transmitted to the information processing device (transmitting terminal) 100 on the delivery user 20 side via the network.
  • the comment voice reproducing unit 103 of the information processing device (transmitting terminal) 100 on the side of the distribution user 20 converts the comment received from the information processing device (receiving terminal) 200 into voice data, generates comment voice, and reproduces the generated comment voice. (viewing user comment voice) is output to the first output voice adjustment unit 104 .
  • the viewing user 30 may directly voice-input a comment such as a cheering message through the microphone of the information processing device (receiving terminal) 200 .
  • this input voice comment is transmitted to the information processing device (transmitting terminal) 100 on the distribution user 20 side via the network.
  • the comment voice reproducing unit 103 of the information processing device (transmitting terminal) 100 on the distribution user 20 side outputs the voice comment received from the information processing device (receiving terminal) 200 as it is to the first output voice adjusting unit 104. .
  • the first output audio adjustment unit 104 receives the following three audio data. (1) Distributed user voice from microphone (first sound source) 101, (2) application sound from the application sound reproduction unit (second sound source) 102; (3) comment voice reproduction unit (third sound source) 103 for viewing user comment voice;
  • the first output audio adjustment unit 104 receives the three audio data from these three sound sources and performs output adjustment processing for the audio data of each sound source.
  • a specific example of the output adjustment process executed by the first output audio adjustment unit 104 will be described with reference to FIG.
  • each audio data characteristic is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the first output sound adjustment unit 104 executes adjustment processing for setting the maximum output of each sound to a predetermined adjustment target level (Lx) as adjustment processing for the output sounds of these three sound sources.
  • Lx predetermined adjustment target level
  • This adjustment process balances the output (volume) from three different sound sources, and if the volume of one sound source is too loud compared to the others, only the sound of one sound source can be heard and the sound of the other sound sources cannot be heard. Problems such as disappearance are reduced. That is, by this adjustment processing, when reproducing a synthesized sound of three pieces of audio data, the audio data of each sound source can be heard in a well-balanced manner.
  • the first output audio adjustment unit 104 generates three pieces of adjusted audio data having (b) post-adjustment (output from the first output audio adjustment unit) audio data characteristics corresponding to the three sound sources shown in FIG. , the adjusted speech data is output to the speech synthesizing unit 105 .
  • the speech synthesizing unit 105 generates adjusted speech data for the three sound sources generated by the first output speech adjusting unit 104, that is, (1) voice data after adjustment of distribution user voice input from microphone (first sound source) 101; (2) audio data after adjustment of the application audio input from the application audio reproduction unit (second sound source) 102; (3) audio data after adjustment of the viewing user comment audio input from the comment audio reproduction unit (third sound source) 103; The audio data after adjustment of these three sound sources are synthesized (mixed).
  • FIG. 6A shows post-adjustment audio characteristic data of the following three sound sources in order from the top.
  • Second sound source Adjusted voice characteristic data of application voice input from application voice reproduction unit (second sound source)
  • the adjusted audio data characteristics of these three sound sources are shown.
  • FIG. 1 shows audio characteristic data after adjustment processing in the 1-output audio adjustment unit 104.
  • FIG. 1 The audio characteristic data after the adjustment processing in the first output audio adjustment section 104 indicated by the solid line, that is, the data with the maximum output adjusted to the adjustment target level (Lx) becomes the input data to the audio synthesis section 105 .
  • the speech synthesis unit 105 generates the following speech data shown as solid line data in each graph in FIG. (1) Adjusted voice characteristic data of distribution user voice input from microphone (first sound source) 101 (2) Adjusted voice characteristic data of application voice input from application voice reproduction unit (second sound source) 102 (3) Comment Adjusted Audio Characteristic Data of Viewing User Comment Audio Input from Audio Playback Unit (Third Sound Source) 103 The adjusted audio data of these three sound sources are synthesized (mixed) to generate one synthesized voice.
  • FIG. 6B shows the data characteristic components (frequency-level characteristics) of each sound source data included in one synthesized speech generated by synthesis (mixing) processing of adjusted speech data of three sound sources by the speech synthesizing unit 105. is shown.
  • the three curves superimposed in the graph shown in FIG. 6(b) are curves representing the adjusted audio characteristic data indicated by the solid lines in the graph shown in FIG. 6(a).
  • the maximum output levels of the data of the three sound sources included in the synthesized speech are all set to the adjustment target level (Lx). That is, the outputs of the three sound sources are averaged, and there is no sound source data that has a prominent maximum value. Therefore, when this synthesized sound is reproduced, the volume levels of the audio data of the three sound sources are almost the same, and the problem that the audio data of any one sound source makes it difficult to hear the audio data of the other sound sources is solved.
  • the synthesized speech data generated by the speech synthesizing unit 105 is distributed via the communication unit 106 and reproduced in the information processing device (receiving terminal) 200 on the viewing user 30 side.
  • the synthesized speech data reproduced by the information processing device (receiving terminal) 200 on the viewing user 30 side is composed of the adjusted speech characteristic data of the three sound sources indicated by the three curves in the graph shown in FIG. 6(b). is synthesized speech data. i.e. (1) Adjusted voice characteristic data of distribution user voice input from microphone (first sound source) 101 (2) Adjusted voice characteristic data of application voice input from application voice reproduction unit (second sound source) 102 (3) Comment Adjusted voice characteristic data of the viewing user comment voice input from the voice reproduction unit (third sound source) 103 Synthesized voice data composed of the adjusted voice data of these three sound sources.
  • the maximum value of the output level of each of the three sound sources included in the synthesized speech is adjusted to the adjustment target level (Lx), and is adjusted so that there is no sound source data with a prominent maximum value.
  • the maximum volume levels of the audio data of the three sound sources in the synthesized speech reproduced by the information processing device (receiving terminal) 200 on the viewing user 30 side are approximately the same level, and the audio data of any one sound source is It is possible to reduce the possibility of occurrence of a problem that the voice data of one sound source becomes difficult to hear, and it is possible to hear the voice data of any sound source on average.
  • the first output sound adjustment unit 104 has explained a processing example of setting the maximum value of the output level of each of the three sound sources to the same adjustment target level (Lx).
  • the 1-output audio adjustment unit 104 is not limited to this adjustment example, and may be configured to perform other adjustment processing.
  • FIG. 7 is a diagram collectively showing the adjustment processing executed by the first output sound adjustment unit 104 and the synthesis processing executed by the speech synthesis unit 105.
  • (b) Synthesis processing of the speech synthesizing unit 105 These respective processes are shown.
  • Example of adjustment processing of distributed user voice input from microphone (first sound source) 101 (2) Example of adjustment processing of application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of Adjustment Processing of Viewing User Comment Audio Input from Third Sound Source 103 An example of adjustment processing of output audio from these three sound sources is shown.
  • the dotted line data on each graph is the audio characteristic data (frequency-level characteristic) before adjustment, and the solid line data is the audio characteristic data (frequency-level characteristic) after adjustment.
  • the first output sound adjustment unit 104 adjusts the maximum output of each sound to an adjustment target level specific to each sound source, which is predetermined for each sound source. (Lx, Ly, Lz) are adjusted respectively.
  • an adjustment process is executed to set the maximum output to a predetermined adjustment target level (Lx) unique to the distribution user's voice.
  • an adjustment process is executed to set the maximum output to a predetermined adjustment target level (Ly) unique to the application sound.
  • an adjustment process is executed to set the maximum output to a predetermined adjustment target level (Lz) unique to the viewing user comment voice.
  • the first output sound adjustment unit 104 adjusts the maximum output of each sound to the predetermined specific adjustment target levels (Lx, Ly, Lz), each set adjustment process is executed.
  • FIG. 7B shows the data characteristic components (frequency-level characteristics) of each sound source data included in one synthesized speech generated by synthesis (mixing) processing of adjusted speech data of three sound sources by the speech synthesizing unit 105. is shown.
  • the three overlapping curves in the graph shown in FIG. 7(b) respectively correspond to the post-adjustment audio characteristics indicated by solid lines in the graph of FIG. 7(a).
  • the maximum output level of each data of the three sound sources included in the synthesized speech is a unique adjustment target level (Lx, Ly , Lz).
  • FIG. 8 is a diagram illustrating another example of adjustment performed by the first output audio adjustment unit 104.
  • FIG. 8 collectively shows the adjustment processing executed by the first output audio adjustment unit 104 and the synthesis processing executed by the speech synthesis unit 105 .
  • (b) Synthesis processing of the speech synthesizing unit 105 These respective processes are shown.
  • Example of adjustment processing of distributed user voice input from microphone (first sound source) 101 (2) Example of adjustment processing of application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of Adjustment Processing of Viewing User Comment Audio Input from Third Sound Source 103 An example of adjustment processing of output audio from these three sound sources is shown.
  • the dotted line data on each graph is the audio characteristic data (frequency-level characteristic) before adjustment, and the solid line data is the audio characteristic data (frequency-level characteristic) after adjustment.
  • the first output sound adjustment unit 104 adjusts the maximum output of each sound for each sound source as the adjustment processing for the output sounds of the three sound sources, similar to the adjustment processing described above with reference to FIG.
  • This is an adjustment example in which adjustment processing is performed to set specific adjustment target levels (Lx, Ly, Lz), and adjustment processing is performed to reduce the difference in output level according to the change in frequency.
  • the example shown in FIG. 8 is an example in which the following adjustment processing is performed in addition to the adjustment processing described with reference to FIG.
  • adjustment processing is performed to reduce the difference in output level according to the change in frequency, and the curve is adjusted in the direction of flattening. Then, the audio characteristic data (frequency-level characteristic) after adjustment indicated by the solid line is generated.
  • the first output sound adjustment unit 104 sets the maximum output of each sound to a predetermined specific adjustment target level corresponding to each sound source. (Lx, Ly, Lz) are respectively set, and an adjustment process is executed to reduce the output difference according to the frequency.
  • FIG. 8B shows the data characteristic components (frequency-level characteristics) of each sound source data included in one synthesized speech generated by synthesis (mixing) processing of adjusted speech data of three sound sources by the speech synthesizing unit 105. is shown.
  • the three overlapping curves in the graph shown in FIG. 8(b) correspond to the adjusted audio characteristics indicated by solid lines in the graph of FIG. 8(a).
  • the maximum output level of each data of the three sound sources included in the synthesized speech is set to the specific adjustment target level (Lx, Ly, Lz) corresponding to each sound source. Furthermore, the difference in output level according to the frequency is reduced.
  • the audio data to be synthesized was the audio data of the following three sound sources.
  • Input sound of microphone (first sound source) 101 (2) Playback sound of application sound reproduction unit (second sound source) 102 (3) Playback sound of comment sound reproduction unit (third sound source) 103,
  • the audio data synthesized and distributed by the information processing device (transmitting terminal) 100 on the distribution user 20 side is not limited to the audio data of these three sound sources.
  • a configuration may be adopted in which synthesis processing and distribution processing of audio data of only two of the above three sound sources are performed.
  • a distribution user 20 can distribute various contents using an information processing device (transmitting terminal). For example, it is possible to execute and distribute various different types of content-enabled applications such as game content, music content, educational content, and the like.
  • a second embodiment described below is an embodiment of an information processing apparatus (transmitting terminal) that executes different audio output adjustment processes depending on the type of distribution content.
  • FIG. 9 is a diagram illustrating a configuration example of the information processing device (transmitting terminal) 110 according to the second embodiment of the present disclosure.
  • an information processing device (transmitting terminal) 110 includes a microphone (first sound source) 101, an application sound reproduction section (second sound source) 102, a comment sound reproduction section (third sound source) 103, a first output It has an audio adjustment unit 104 , an audio synthesis unit 105 , a communication unit 106 , a content type determination unit 111 and a second output audio adjustment unit 112 .
  • the configuration shown in FIG. 9 is a partial configuration of the information processing device (transmitting terminal) 110, and is a block diagram showing a configuration mainly applied to the audio output adjustment processing of the present disclosure.
  • the information processing device (transmitting terminal) 110 has, in addition to the configuration shown in the diagram, components similar to those of a general smartphone (smartphone), such as a display unit, an input unit, a control unit, and a storage unit.
  • the configuration of the information processing apparatus (transmitting terminal) 110 of the second embodiment is similar to the configuration of the information processing apparatus (transmitting terminal) 100 of the first embodiment described above with reference to FIG. , and a second output audio adjustment unit 112 is added.
  • a microphone (first sound source) 101 is a microphone provided in an information processing device (transmitting terminal) 110.
  • the information processing device (transmitting terminal) 110 is used to hear the voice of a distribution user 20 who is executing a game application. Then, it is input to the first output sound adjustment unit 104 .
  • a distribution user voice input to a microphone (first sound source) 101 is input to a first output voice adjusting section 104 .
  • the application sound reproduction unit (second sound source) 102 generates the reproduction sound of the application being executed in the information processing device (transmitting terminal) 110 , the application sound shown in the figure, and outputs it to the first output sound adjustment unit 104 .
  • the application sound reproduction unit (second sound source) 102 reproduces BGM generated by the game application, For example, various sounds such as the engine sound of a car, the cheers of spectators, and the sound of a collision at the time of a crash are generated as reproduced sounds and output to the first output sound adjustment unit 104 .
  • the comment audio reproduction unit (third sound source) 103 reproduces the comments of the viewing user 30 who reproduces and views the image and audio data transmitted from the information processing device (transmitting terminal) 110 .
  • the viewing user 30 receives and reproduces the application execution screen and audio data transmitted from the information processing device (transmitting terminal) 110 on the distribution user 20 side by the information processing device (receiving terminal) 200 on the viewing user 30 side, A text of a comment such as a support message is input to the information processing device (receiving terminal) 200 . This input comment is transmitted to the information processing device (transmitting terminal) 110 on the delivery user 20 side via the network.
  • the comment voice reproducing unit 103 of the information processing device (transmitting terminal) 110 on the distribution user 20 side converts the comment received from the information processing device (receiving terminal) 200 into voice data, generates comment voice, and reproduces the generated comment voice. (viewing user comment voice) is output to the first output voice adjustment unit 104 .
  • the viewing user 30 may directly voice-input a comment such as a cheering message through the microphone of the information processing device (receiving terminal) 200 .
  • this input voice comment is transmitted to the information processing device (transmitting terminal) 100 on the distribution user 20 side via the network.
  • the comment voice reproducing unit 103 of the information processing device (transmitting terminal) 110 on the distribution user 20 side outputs the voice comment received from the information processing device (receiving terminal) 200 as it is to the first output voice adjusting unit 104. .
  • the first output sound adjustment unit 104 executes adjustment processing of the output sound of each sound source similar to that of the first embodiment described above. That is, the first output audio adjustment unit 104 receives the following three audio data. (1) Distributed user voice from microphone (first sound source) 101, (2) application sound from the application sound reproduction unit (second sound source) 102; (3) comment voice reproduction unit (third sound source) 103 for viewing user comment voice;
  • the first output audio adjustment unit 104 receives the three audio data from these three sound sources and performs output adjustment processing for the audio data of each sound source.
  • the first output audio adjustment unit 104 executes the adjustment processing described above with reference to FIG. 5, for example.
  • the first output sound adjustment unit 104 executes adjustment processing for setting the maximum output of the output sounds of the three sound sources to a predetermined adjustment target level (Lx).
  • a predetermined adjustment target level Lx
  • the first output audio adjustment unit 104 generates three pieces of adjusted audio data having (b) post-adjustment (output from the first output audio adjustment unit) audio data characteristics corresponding to the three sound sources shown in FIG. , the adjusted audio data is output to the second output audio adjustment unit 112 .
  • the second output audio adjuster 112 is an audio output adjuster that does not exist in the first embodiment described above.
  • the second output sound adjustment unit 112 is executed by the distribution user 20 in the information processing device (transmitting terminal) 110, and the type of content being distributed, such as game content, music content, educational content, etc.
  • the type of content being distributed such as game content, music content, educational content, etc.
  • Various different types of content Executes audio output adjustment processing according to the
  • the second output sound adjustment unit 112 receives from the content type determination unit 111 the information on the type of content being distributed by the distribution user 20 in the information processing device (transmitting terminal) 110, and adjusts the content according to the input content type. output audio adjustment processing.
  • the type of content is, for example, a type corresponding to the contents of the content, such as game content, music content, and educational content.
  • the game content may be further classified into battle-type content, race-type content, and the like according to the content of the game.
  • the content type determination unit 111 reads, for example, attribute information such as the title and category of the content that is being started and executed in the information processing device (transmitting terminal) 110 from the memory in the information processing device (transmitting terminal) 110, and determines the content type. It discriminates and notifies the second output sound adjustment unit 112 .
  • the content type determination unit 111 determines attribute information (hashtag information, etc.) from the memory in the information processing device (transmission terminal) 110, determines the type of content that the distribution user 20 prefers to execute, and notifies the second output sound adjustment unit 112 You may perform processing to do.
  • the distribution history data recorded in the memory in the information processing device (transmitting terminal) 110 is read, the type of content estimated from this distribution history data is determined, and the second output audio adjustment unit 112 is notified. You may perform processing to do.
  • the second output sound adjustment unit 112 outputs sound from each sound source according to the content type input from the content type determination unit 111 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 10 shows a specific example of output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment section 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 10A is the same as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 10A is the audio characteristic data before adjustment in the first output audio adjustment unit 104, that is, the audio characteristic data of the audio output from each sound source, and the solid line data is the first This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio output adjustment by the first output audio adjustment unit 104 is defined as “first adjustment”
  • the audio output adjustment by the second output audio adjustment unit 112 is defined as “second adjustment”.
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the content type.
  • the second output sound adjustment unit 112 adjusts the output sound from the three sound sources (distribution user sound, application sound, and viewing user comment sound).
  • the following second adjustment processing is executed.
  • No second adjustment processing is performed on the application sound input from the application sound reproduction unit (second sound source) 102 .
  • No second adjustment processing is performed on the viewing user comment voice input from the comment voice reproduction unit (third sound source) 103 .
  • the second output sound adjustment unit 112 executes only the second adjustment processing for the distribution user voice input from the microphone (first sound source) 101, The first adjustment data is output as it is without executing the second adjustment process for the comment voice.
  • the second output sound adjustment unit 112 executes output level up processing and specific frequency component emphasis processing only on the distributed user voice input from the microphone (first sound source) 101. and output to the next speech synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 11 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output sound adjustment unit 112 sets the output level of only the distribution user voice input from the microphone (first sound source) 101. Up processing and specific frequency component emphasis processing are being executed.
  • the distribution user voice graph shown at the top of FIG. 11(a) shows the following three voice characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the delivery user's voice input from the microphone (first sound source) 101
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (solid line data ) is entered.
  • FIG. 11(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 11B shows data characteristic components (frequency- level characteristics).
  • the three overlapping curves in the graph shown in FIG. 11(b) correspond to the adjusted audio characteristics indicated by solid lines in the graph of FIG. 11(a).
  • Second adjusted data obtained by performing two adjustment processes in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 on the distribution user voice input from the microphone (first sound source) 101 (2 ) First adjusted data obtained by performing one adjustment process only in the first output sound adjustment unit 104 on the application sound input from the application sound reproduction unit (second sound source) 102 (3) Comment sound reproduction unit (third sound source)
  • the first adjusted data obtained by performing one adjustment process only in the first output audio adjustment unit 104 on the viewing user comment audio input from the sound source 103 are shown.
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 11(b).
  • the voice of the distribution user is output as a voice that is easier to hear than other voices.
  • the output adjustment processing of the sound corresponding to each sound source in the first output sound adjustment unit 104 is also performed.
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • FIG. 12 shows an example in which a distribution user 20 executes a music content reproduction application using an information processing device (transmitting terminal) 110 and distributes music.
  • the information processing device (transmitting terminal) 110 reproduces performance images of musicians, singers, and the like who play and sing various songs. Along with this image, the audio data of the music content is also reproduced.
  • the images and sounds of these music contents are also reproduced in the information processing device (receiving terminal) 200 on the viewing user 30 side via the network.
  • the sound of the music content is the application sound reproduced by the application sound reproduction unit (second sound source) 102 of the information processing device (transmitting terminal) 110 on the distribution user 20 side.
  • the audio data distributed via the network includes not only this application voice, but also the distribution user voice input from the microphone (first sound source) 101, and the viewing user comment input from the comment voice reproduction unit (third sound source) 103. there is a voice
  • the utterance of distribution user 20 shown in FIG. It will be delivered.
  • this song is the best shown as a comment of the viewing user 30 shown in FIG.
  • the input text is received by the information processing device (transmitting terminal) 110 via the network, and the received text is converted into voice data to generate comment voice.
  • the generated comment voice is also synthesized (mixed) with the application voice and the voice of the game executing user and distributed.
  • second output audio adjustment unit 112 executes A specific example of the output adjustment process according to the content type and the speech synthesizing process executed by the speech synthesizing unit 105 will be described.
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 13 shows a specific example of output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment section 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 13A is the same processing as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 13A is the audio characteristic data before adjustment in the first output audio adjustment unit 104, that is, the audio characteristic data of the audio output from each sound source, and the solid line data is the first This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the content type.
  • the second output audio adjustment unit 112 adjusts the output audio from the three sound sources (distribution user audio, application audio, and viewing user comment audio).
  • the following second adjustment processing is executed.
  • (2) As a second adjustment process for the application sound input from the application sound reproduction unit (second sound source) 102, the output level is raised as a whole, and the frequency characteristics ( curve shape of the graph) are further emphasized. Adjust the output. That is, adjustment processing is performed to increase the difference in output level according to the frequency.
  • No second adjustment processing is performed on the viewing user comment voice input from the comment voice reproduction unit (third sound source) 103 .
  • the second output sound adjustment unit 112 performs only the second adjustment processing on the application sound input from the application sound reproduction unit (second sound source) 102, , the first adjustment data is output as it is without performing the second adjustment processing on the viewing user comment voice.
  • the second output sound adjustment unit 112 performs output level up processing, specific frequency component emphasis, and so on only for the application sound input from the application sound reproduction unit (second sound source) 102.
  • the processing is executed and output to the next speech synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 14 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output audio adjustment unit 112 outputs only the application audio input from the application audio reproduction unit (second sound source) 102. Output level up processing and specific frequency component emphasis processing are being executed.
  • the application voice graph shown in the middle of FIG. 14(a) shows the following three audio characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output sound adjustment unit 104 and the second output sound adjustment unit 112 on the application sound input from the application sound reproduction unit (second sound source) 102
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (second adjusted data) obtained by performing two adjustment processes in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the application audio input from the application audio reproduction unit (second sound source) 102 solid line data) is input.
  • FIG. 14(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 14B shows data characteristic components (frequency- level characteristics).
  • the three overlapping curves in the graph shown in FIG. 14(b) correspond to the post-adjustment audio characteristics indicated by solid lines in the graph of FIG. 14(a). i.e. (1) First adjusted data obtained by performing one adjustment process only in the first output audio adjusting unit 104 on distribution user voice input from the microphone (first sound source) 101 (2) Application voice reproducing unit (first Second adjusted data obtained by performing two adjustment processes in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the application audio input from the second sound source 102 (3) Comment audio reproduction unit (third The first adjusted data obtained by performing one adjustment process only in the first output audio adjustment unit 104 on the viewing user comment audio input from the sound source 103 are shown.
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 14(b).
  • the voice of the distribution user is output as a voice that is easier to hear than other voices.
  • the output adjustment processing of the sound corresponding to each sound source in the first output sound adjustment unit 104 is also performed.
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • the distribution user 20 uses the information processing device (transmitting terminal) to execute and distribute content corresponding to various applications as described above. Furthermore, various scenes occur even during the execution of one application.
  • a third embodiment described below is an embodiment of an information processing apparatus (transmitting terminal) that executes different audio output adjustment processes according to scenes.
  • FIG. 15 is a diagram illustrating a configuration example of the information processing device (transmitting terminal) 120 according to the third embodiment of the present disclosure.
  • an information processing device (transmitting terminal) 120 includes a microphone (first sound source) 101, an application sound reproducing section (second sound source) 102, a comment sound reproducing section (third sound source) 103, a first output It has an audio adjustment unit 104 , an audio synthesis unit 105 , a communication unit 106 , a scene determination unit 121 and a second output audio adjustment unit 112 .
  • the configuration shown in FIG. 15 is a partial configuration of the information processing device (transmitting terminal) 120, and is a block diagram showing a configuration mainly applied to the audio output adjustment processing of the present disclosure.
  • the information processing device (transmitting terminal) 120 has, in addition to the configuration shown in the drawing, components similar to those of a general smartphone (smartphone), such as a display unit, an input unit, a control unit, and a storage unit.
  • the configuration of the information processing apparatus (transmitting terminal) 120 of the third embodiment is similar to the configuration of the information processing apparatus (transmitting terminal) 100 of the first embodiment described above with reference to FIG. , and a second output sound adjustment unit 112 is added.
  • a microphone (first sound source) 101 is a microphone provided in an information processing device (transmitting terminal) 120.
  • the information processing device (transmitting terminal) 120 is used to hear the voice of a distribution user 20 who is executing a game application. Then, it is input to the first output sound adjustment unit 104 .
  • the distribution user voice input to the microphone (first sound source) 101 is input to the first output voice adjusting section 104 .
  • the application sound reproduction unit (second sound source) 102 generates the reproduction sound of the application being executed in the information processing device (transmitting terminal) 120 , the application sound shown in the figure, and outputs it to the first output sound adjustment unit 104 .
  • the application sound reproduction unit (second sound source) 102 reproduces BGM generated by the game application, For example, various sounds such as the engine sound of a car, the cheers of spectators, and the sound of a collision at the time of a crash are generated as reproduced sounds and output to the first output sound adjustment unit 104 .
  • the comment audio reproduction unit (third sound source) 103 reproduces the comments of the viewing user 30 who reproduces and views the image and audio data transmitted from the information processing device (transmitting terminal) 120 .
  • the viewing user 30 receives and reproduces the application execution screen and audio data transmitted from the information processing device (transmitting terminal) 120 on the distribution user 20 side by the information processing device (receiving terminal) 200 on the viewing user 30 side, A text of a comment such as a support message is input to the information processing device (receiving terminal) 200 . This input comment is transmitted to the information processing device (transmitting terminal) 120 on the distribution user 20 side via the network.
  • the comment voice reproducing unit 103 of the information processing device (transmitting terminal) 120 on the distribution user 20 side converts the comment received from the information processing device (receiving terminal) 200 into voice data, generates comment voice, and reproduces the generated comment voice. (viewing user comment voice) is output to the first output voice adjustment unit 104 .
  • the viewing user 30 may directly voice-input a comment such as a cheering message through the microphone of the information processing device (receiving terminal) 200 .
  • this input voice comment is transmitted to the information processing device (transmitting terminal) 100 on the distribution user 20 side via the network.
  • the comment voice reproducing unit 103 of the information processing device (transmitting terminal) 120 on the distribution user 20 side outputs the voice comment received from the information processing device (receiving terminal) 200 to the first output voice adjusting unit 104 as it is. .
  • the first output sound adjustment unit 104 executes adjustment processing of the output sound of each sound source similar to that of the first embodiment described above. That is, the first output audio adjustment unit 104 receives the following three audio data. (1) Distributed user voice from microphone (first sound source) 101, (2) application sound from the application sound reproduction unit (second sound source) 102; (3) comment voice reproduction unit (third sound source) 103 for viewing user comment voice;
  • the first output audio adjustment unit 104 receives the three audio data from these three sound sources and performs output adjustment processing for the audio data of each sound source.
  • the first output audio adjustment unit 104 executes the adjustment processing described above with reference to FIG. 5, for example.
  • the first output sound adjustment unit 104 executes adjustment processing for setting the maximum output of the output sounds of the three sound sources to a predetermined adjustment target level (Lx).
  • a predetermined adjustment target level Lx
  • the first output audio adjustment unit 104 generates three pieces of adjusted audio data having (b) post-adjustment (output from the first output audio adjustment unit) audio data characteristics corresponding to the three sound sources shown in FIG. , the adjusted audio data is output to the second output audio adjustment unit 112 .
  • the second output audio adjuster 112 is an audio output adjuster that does not exist in the first embodiment described above.
  • the second output audio adjustment unit 112 executes audio output adjustment processing according to the scene of the distributed content, which is executed by the distribution user 20 in the information processing device (transmitting terminal) 120 .
  • the start scene of the application such as a game
  • various scenes during application execution such as accident scenes such as crashes, overtaking scenes, etc.
  • the audio output adjustment process is executed according to these various scenes, such as the end scene of an application such as a game.
  • the second output sound adjustment unit 112 is executed by the distribution user 20 in the information processing device (transmitting terminal) 120 from the scene determination unit 121, inputs the scene information during distribution, and adjusts the output sound according to the input scene information. I do.
  • the scene discriminated by the scene discriminating unit 121 includes, for example, the start scene of an application such as a game, various scenes during the execution of the application, for example, an accident scene such as a crash, an overtaking scene, and a game. , such as the end of the application.
  • the scene discrimination unit 121 discriminates the scene of the application that is being started and executed in the information processing device (transmitting terminal) 120 , generates scene discrimination information, and inputs the scene discrimination information to the second output sound adjustment unit 112 .
  • the scene determination unit 121 reads the attribute information of the application being executed in the information processing device (transmitting terminal) 120 from the memory in the information processing device (transmitting terminal) 120, and based on the read attribute information, currently
  • the information processing apparatus (transmitting terminal) 120 discriminates the scene of the application being executed, generates scene discrimination information, and outputs the scene discrimination information to the second output sound adjusting section 112 .
  • the scene determination unit 121 analyzes an image displayed on the display unit of the information processing device (transmitting terminal) 120, determines a scene based on the analysis result of the image, and generates scene determination information. It may be configured to output to the second output audio adjusting section 112 .
  • the scene determination unit 121 analyzes the utterance content of the distribution user 20 input through the microphone of the information processing device (transmitting terminal) 120, determines the scene, generates scene determination information, It may be configured to output to the output sound adjustment unit 112 .
  • the distribution user 20 "I'm about to start the game” "Everyone please support me”
  • the scene determination unit 121 can analyze the content of the utterance of the distribution user 20 and determine that it is the start scene of the game application.
  • the scene determination unit 121 can analyze the content of the utterance of the distribution user 20 and determine that it is an overtaking scene in a car racing game application.
  • the scene determination unit 121 can analyze the content of the utterance of the distribution user 20 and determine that it is the ending scene of the car racing game application. In this manner, the scene determination unit 121 may analyze the content of the user's speech, perform scene determination, and output scene determination information as a result to the second output audio adjustment unit 112 .
  • the scene determination unit 121 analyzes, for example, the comment content of the viewing user 30 input via the communication unit of the information processing device (transmitting terminal) 120 to determine the scene, generates scene determination information, and generates the first scene determination information. It may be configured to output to the two-output audio adjustment unit 112 .
  • the scene determination unit 121 can analyze the content of the comment of the viewing user 30 and determine that it is the start scene of the game application.
  • the scene discriminating section 121 can analyze the content of the comment of the viewing user 30 and discriminate that it is the end scene of the game.
  • the second output sound adjustment unit 112 adjusts the output sound from each sound source according to the scene determination information input from the scene determination unit 121 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • a specific processing example of the third embodiment that is, a specific example of scene discrimination processing and audio output adjustment processing according to the discrimination scene will be described with reference to FIG. 16 and the following figures.
  • FIG. 16 is a diagram for explaining a specific example of scene determination processing for the game start scene.
  • the scene determination unit 121 reads, for example, the attribute information of the application being executed by the information processing device (transmitting terminal) 120 from the memory in the information processing device (transmitting terminal) 120, and uses the read attribute information as Based on this, the scene of the application currently being executed in the information processing device (transmitting terminal) 120 is determined.
  • the image displayed on the display unit of the information processing device (transmitting terminal) 120 is analyzed, and the scene is determined based on the analysis result of the image.
  • the scene is determined by analyzing the utterance content of the distribution user 20 input through the microphone of the information processing device (transmitting terminal) 120 .
  • the scene is determined by analyzing the content of the comment from the viewing user 30 input via the communication unit of the information processing device (transmitting terminal) 120 .
  • scene discrimination processing is executed by these various processes to generate scene discrimination information, which is output to the second output audio adjustment section 112 .
  • the scene determination unit 121 analyzes an image displayed on the display unit of the information processing device (transmitting terminal) 120, for example.
  • the display unit of the information processing device (transmitting terminal) 120 displays an image in which a plurality of cars are lined up at the position where the letters [START] are displayed.
  • the scene discrimination unit 121 discriminates that it is the start scene of the car racing game application, for example, based on the fact that such an image is displayed.
  • the scene determination unit 121 can analyze the utterance content of the distribution user 20 and determine that it is the start scene of the car racing game application.
  • the scene determination unit 121 reads the attribute information of the application being executed by the information processing device (transmitting terminal) 120 from the memory in the information processing device (transmitting terminal) 120 .
  • the image displayed on the display unit of the information processing device (transmitting terminal) 120 is analyzed, and the scene is determined based on the analysis result of the image.
  • the scene is determined by analyzing the utterance content of the distribution user 20 input through the microphone of the information processing device (transmitting terminal) 120 .
  • the scene is determined by analyzing the content of the comment from the viewing user 30 input via the communication unit of the information processing device (transmitting terminal) 120 . By performing at least one of these processes, the scene of the application currently being executed in the information processing device (transmitting terminal) 120 is determined.
  • the scene determination unit 121 outputs scene determination information, which is the result of scene determination processing, to the second output audio adjustment unit 112 .
  • the second output sound adjustment unit 112 adjusts the output sound from each sound source according to the scene determination information input from the scene determination unit 121 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • the scene determination unit 121 determines, as a result of the scene determination process, A specific example of processing executed by the first output sound adjustment unit 104, the second output sound adjustment unit 112, and the sound synthesis unit 105 when it is determined that the scene is the scene immediately before the start of the game will be described.
  • FIG. 17 shows that the scene determination unit 121, as a result of the scene determination processing, A specific example of output adjustment processing corresponding to each sound source executed by the first output sound adjustment unit 104 and the second output sound adjustment unit 112 when it is determined that the scene is the scene immediately before the start of the game will be described.
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 17 shows a specific example of output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment section 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 17A is the same processing as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 17A is the sound characteristic data before adjustment in the first output sound adjustment unit 104, that is, the sound characteristic data of the sound output from each sound source. This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio output adjustment by the first output audio adjustment unit 104 is defined as “first adjustment”
  • the audio output adjustment by the second output audio adjustment unit 112 is defined as “second adjustment”.
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the scene.
  • the scene determination unit 121 As a result of the scene determination processing, This is an example of adjustment processing when it is determined that the scene is the scene immediately before the start of the game.
  • the second output audio adjustment unit 112 adjusts the output audio from the three sound sources (distributor user audio, application audio, and viewing user comment audio). It is a specific example of processing.
  • the second output sound adjustment unit 112 adjusts the output sound from the three sound sources (distributor user sound, application sound, and viewing user comment sound).
  • the following second adjustment processing is executed.
  • No second adjustment processing is performed on the application sound input from the application sound reproduction unit (second sound source) 102 .
  • No second adjustment processing is performed on the viewing user comment voice input from the comment voice reproduction unit (third sound source) 103 .
  • the second output sound adjustment unit 112 performs only the second adjustment process on the delivery user's voice input from the microphone (first sound source) 101, The first adjustment data is output as it is without executing the second adjustment process for the comment voice.
  • the second output sound adjusting unit 112 performs the output level increasing process and the specific frequency component emphasis process only on the distribution user voice input from the microphone (first sound source) 101. It is executed and output to the next speech synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 18 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output sound adjustment unit 112 sets the output level of only the distributed user sound input from the microphone (first sound source) 101 to Up processing and specific frequency component emphasis processing are being executed.
  • the distribution user voice graph shown at the top of FIG. 18(a) shows the following three voice characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the delivery user's voice input from the microphone (first sound source) 101
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (solid line data ) is entered.
  • FIG. 18(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 18B shows data characteristic components (frequency- level characteristics).
  • the three overlapping curves in the graph shown in FIG. 18(b) respectively correspond to the adjusted audio characteristics indicated by solid lines in the graph of FIG. 18(a).
  • Second adjusted data obtained by performing two adjustment processes in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 on the distribution user voice input from the microphone (first sound source) 101 (2 ) First adjusted data obtained by performing one adjustment process only in the first output sound adjustment unit 104 on the application sound input from the application sound reproduction unit (second sound source) 102 (3) Comment sound reproduction unit (third sound source)
  • the first adjusted data obtained by performing one adjustment process only in the first output audio adjustment unit 104 on the viewing user comment audio input from the sound source 103 are shown.
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 18(b).
  • the voice of the distribution user is output as a voice that is easier to hear than other voices.
  • the maximum value of the output level of each of the three sound sources is set to one.
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • FIG. 19 is a diagram illustrating a specific example of scene determination processing for a scene during game execution.
  • the scene determination unit 121 receives, for example, the attribute information of the application being executed in the information processing device (transmitting terminal) 120, the image displayed on the display unit, or the distribution user 20 input via the microphone. or the comment content of the viewing user 30 input via the communication unit is analyzed to determine the scene.
  • scene discrimination processing is executed by these various processes to generate scene discrimination information, which is output to the second output audio adjustment section 112 .
  • the scene determination unit 121 analyzes an image displayed on the display unit of the information processing device (transmitting terminal) 120, for example.
  • the display unit of the information processing device (transmitting terminal) 120 displays an image of a plurality of cars running.
  • the scene discriminating unit 121 discriminates, for example, based on the fact that such an image is displayed, that it is a scene in which a car racing game application is being executed.
  • the scene determination unit 121 can analyze the content of the speech of the broadcast user 20 and determine that the game application for car racing is being executed, and that the scene is about accelerating or overtaking.
  • the scene determination unit 121 determines the scene of the application currently being executed in the information processing device (transmitting terminal) 120 .
  • the scene determination section 121 outputs scene determination information, which is the result of the scene determination processing, to the second output audio adjustment section 112 .
  • the second output sound adjustment unit 112 adjusts the output sound from each sound source according to the scene determination information input from the scene determination unit 121 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • the scene determination unit 121 determines, as a result of the scene determination process, A specific example of processing executed by the first output sound adjustment unit 104, the second output sound adjustment unit 112, and the sound synthesis unit 105 when it is determined that the scene is the scene during game execution will be described.
  • FIG. 20 shows that the scene determination unit 121, as a result of the scene determination processing, A specific example of output adjustment processing corresponding to each sound source executed by the first output sound adjustment unit 104 and the second output sound adjustment unit 112 when it is determined that the scene is the scene during game execution will be described.
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 20 shows a specific example of output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment section 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 20(a) is the same as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 20(a) is the audio characteristic data before adjustment in the first output audio adjustment unit 104, that is, the audio characteristic data of the audio output from each sound source, and the solid line data is the first This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the scene.
  • the scene discrimination unit 121 as a result of scene discrimination processing, This is an example of adjustment processing when it is determined that the scene is the scene during game execution.
  • FIG. 20B shows adjustment of output sounds from three sound sources (distributor user sound, application sound, and viewing user comment sound) executed by the second output sound adjustment unit 112 when the scene is the scene during game execution. It is a specific example of processing.
  • the second output audio adjustment unit 112 adjusts the output audio from the three sound sources (distributor user audio, application audio, and viewing user comment audio).
  • the following second adjustment processing is executed.
  • the second output sound adjustment unit 112 performs the second adjustment process on the distribution user voice input from the microphone (first sound source) 101, the application sound reproduction unit (second The second adjustment process is performed on the application voice input from the sound source 102, the second adjustment process is not performed on the viewing user comment voice, and the first adjustment data is output as it is.
  • the second output sound adjustment unit 112 adjusts the distribution user voice input from the microphone (first sound source) 101 and the application sound input from the application sound reproduction unit (second sound source) 102 .
  • the voice is subjected to output level-up processing and specific frequency component emphasis processing, and then output to the next voice synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 21 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output sound adjustment unit 112 adjusts the distribution user voice input from the microphone (first sound source) 101 and the application It executes processing for increasing the output level of the application sound input from the sound reproduction unit (second sound source) 102 and processing for emphasizing a specific frequency component.
  • the distribution user voice graph shown at the top of FIG. 21(a) shows the following three voice characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the delivery user's voice input from the microphone (first sound source) 101
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (solid line data ) is entered.
  • the graph of the application voice shown in the middle of FIG. 21(a) also shows the following three audio characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output sound adjustment unit 104 and the second output sound adjustment unit 112 on the application sound input from the application sound reproduction unit (second sound source) 102
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (second adjusted data) obtained by performing two adjustment processes in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the application audio input from the application audio reproduction unit (second sound source) 102 solid line data) is input.
  • FIG. 21(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 21B shows data characteristic components (frequency- level characteristics).
  • the three overlapping curves in the graph shown in FIG. 21(b) correspond to the post-adjustment audio characteristics indicated by solid lines in the graph of FIG. 21(a).
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 21(b).
  • the distribution user's voice and the application voice are output as voices that are easier to hear than the viewer user comment voice.
  • the output adjustment processing of the sound corresponding to each sound source in the first output sound adjustment unit 104 is also performed.
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • Scene 3 Specific example of scene determination processing for crash occurrence scene and audio output adjustment processing according to the determination scene]
  • processing example 3 a specific example of scene discrimination processing of a crash occurrence scene and audio output adjustment processing according to the discrimination scene will be described.
  • FIG. 22 is a diagram illustrating a specific example of scene determination processing for a crash scene.
  • the scene determination unit 121 analyzes an image displayed on the display unit of the information processing device (transmitting terminal) 120, for example.
  • the display unit of the information processing device (transmitting terminal) 120 displays an image of a car crashing.
  • the scene discriminating unit 121 discriminates, for example, based on the display of such an image, that it is a scene in which a crash has occurred during execution of a car racing game.
  • the scene determination unit 121 can analyze the content of the utterance of the broadcast user 20 and determine that the car racing game application is being executed and that it is a scene in which some kind of accident (crash) has occurred.
  • the scene determination unit 121 determines the scene of the application currently being executed in the information processing device (transmitting terminal) 120 .
  • the scene determination section 121 outputs scene determination information, which is the result of the scene determination processing, to the second output audio adjustment section 112 .
  • the second output sound adjustment unit 112 adjusts the output sound from each sound source according to the scene determination information input from the scene determination unit 121 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • the scene determination unit 121 determines, as a result of the scene determination process, A specific example of processing executed by the first output sound adjustment unit 104, the second output sound adjustment unit 112, and the sound synthesis unit 105 when it is determined that the scene is the crash occurrence scene will be described.
  • FIG. 23 shows that the scene determination unit 121, as a result of the scene determination processing, A specific example of the output adjustment processing corresponding to each sound source executed by the first output sound adjustment unit 104 and the second output sound adjustment unit 112 when it is determined that the scene is the crash occurrence scene will be described.
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 23 shows a specific example of the output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment section 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 23(a) is the same as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 23(a) is the audio characteristic data before adjustment in the first output audio adjustment unit 104, that is, the audio characteristic data of the audio output from each sound source. This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the scene.
  • the scene determination unit 121 As a result of the scene determination processing, This is an example of adjustment processing when it is determined that the scene is the crash scene.
  • FIG. 23B shows adjustment processing for output audio from three sound sources (distributor user audio, application audio, and viewing user comment audio) executed by the second output audio adjustment unit 112 when the scene is the crash occurrence scene. is a specific example.
  • the second output audio adjustment unit 112 adjusts Then, the following second adjustment processing is executed.
  • the degree of increase in the output level of the second adjustment process for the distributed user voice in this scene 3 is set to be less than the degree of increase in scene 2 (game running scene) described above with reference to FIG. and
  • the degree of increase in the output level of the second adjustment process for the application sound in this scene 3 is set to be substantially the same as the degree of increase in the scene 2 (game running scene) described above with reference to FIG. .
  • This is an adjustment process to make the collision sound louder at the time of crash.
  • the second output audio adjustment unit 112 performs the second adjustment process on the delivery user voice input from the microphone (first sound source) 101, the application audio playback unit (second sound source) ) performs the second adjustment process on the application voice input from 102, does not perform the second adjustment process on the viewing user comment voice, and outputs the first adjustment data as it is.
  • the second output audio adjustment unit 112 adjusts the delivered user audio input from the microphone (first sound source) 101 and the application audio input from the application audio playback unit (second sound source) 102 , the output level-up processing and the specific frequency component emphasis processing are executed, and output to the next speech synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 24 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output audio adjustment unit 112 adjusts the delivered user voice input from the microphone (first sound source) 101 and the application voice. It executes processing for increasing the output level of the application sound input from the reproduction unit (second sound source) 102 and processing for emphasizing a specific frequency component.
  • the distribution user voice graph shown at the top of FIG. 24(a) shows the following three voice characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the delivery user's voice input from the microphone (first sound source) 101
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (solid line data ) is entered.
  • the graph of the application voice shown in the middle of FIG. 24(a) also shows the following three audio characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output sound adjustment unit 104 and the second output sound adjustment unit 112 on the application sound input from the application sound reproduction unit (second sound source) 102
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (second adjusted data) obtained by performing two adjustment processes in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the application audio input from the application audio reproduction unit (second sound source) 102 solid line data) is input.
  • FIG. 24(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 24B shows data characteristic components (frequency- level characteristics).
  • the three overlapping curves in the graph shown in FIG. 24(b) correspond to the post-adjustment audio characteristics indicated by the solid lines in the graph of FIG. 24(a).
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 24(b).
  • the distribution user's voice and the application voice are output as voices that are easier to hear than the viewer user comment voice.
  • the crash sound contained in the application sound and the shouts of the distribution users 20 are emphasized more, which has the effect of strongly conveying to the viewer the degree of urgency at the time of the crash.
  • the maximum value of the output level of each of the three sound sources is set to one.
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • Scene 4 Specific example of scene determination processing for game end scene and audio output adjustment processing according to the determination scene]
  • a processing example 4 a specific example of the scene determination processing of the game end scene and the sound output adjustment processing according to the determination scene will be described.
  • FIG. 25 is a diagram for explaining a specific example of the scene determination processing for the game end scene.
  • the scene determination unit 121 analyzes an image displayed on the display unit of the information processing device (transmitting terminal) 120, for example.
  • the display unit of the information processing device (transmitting terminal) 120 displays an image of a car passing the goal line.
  • the scene discriminating unit 121 discriminates, for example, based on the display of such an image, that the scene is the end of the car racing game.
  • the scene determination unit 121 can analyze the content of the utterance of the broadcast user 20 and determine that the car racing game application is being executed and that it is a scene in which some kind of accident (crash) has occurred.
  • the scene determination unit 121 can analyze the comment of the viewing user 30 and determine that the scene is the end of the car racing game.
  • the scene determination unit 121 reads the attribute information of the application being executed by the information processing device (transmitting terminal) 120 from the memory in the information processing device (transmitting terminal) 120 .
  • the image displayed on the display unit of the information processing device (transmitting terminal) 120 is analyzed, and the scene is determined based on the analysis result of the image.
  • the scene is determined by analyzing the utterance content of the distribution user 20 input through the microphone of the information processing device (transmitting terminal) 120 .
  • the scene is determined by analyzing the comments of the viewing user 30 input via the communication unit of the information processing device (transmitting terminal) 120 . By performing at least one of these processes, the scene of the application currently being executed in the information processing device (transmitting terminal) 120 is determined.
  • the scene determination unit 121 outputs scene determination information, which is the result of scene determination processing, to the second output audio adjustment unit 112 .
  • the second output sound adjustment unit 112 adjusts the output sound from each sound source according to the scene determination information input from the scene determination unit 121 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • the scene determination unit 121 determines, as a result of the scene determination process, A specific example of processing executed by the first output sound adjusting unit 104, the second output sound adjusting unit 112, and the sound synthesizing unit 105 when it is determined that the scene is the game end scene will be described.
  • FIG. 26 shows that the scene determination unit 121, as a result of the scene determination processing, A specific example of output adjustment processing corresponding to each sound source executed by the first output sound adjustment unit 104 and the second output sound adjustment unit 112 when it is determined that the scene is the game end scene will be described.
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 26 shows a specific example of the output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment section 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 26(a) is the same as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 26(a) is the audio characteristic data before adjustment in the first output audio adjustment unit 104, that is, the audio characteristic data of the audio output from each sound source. This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the scene.
  • the scene determination unit 121 As a result of the scene determination processing, This is an example of adjustment processing when it is determined that the scene is the game ending scene.
  • FIG. 26B shows adjustment processing for output audio from three sound sources (distributor user audio, application audio, and viewing user comment audio) executed by the second output audio adjustment unit 112 when the scene is the game end scene. is a specific example.
  • the second output sound adjustment unit 112 adjusts Then, the following second adjustment processing is executed.
  • the second output sound adjustment unit 112 performs the second adjustment process on the distribution user voice input from the microphone (first sound source) 101, the comment sound reproduction unit (third sound source) ) 103, the second adjustment process is not executed for the application sound input from the application sound reproduction unit (second sound source) 102, and the first adjustment data is output as it is. do.
  • the second output sound adjustment unit 112 outputs the distribution user's voice input from the microphone (first sound source) 101 and the viewing user input from the comment sound reproduction unit (third sound source) 103 .
  • the comment voice is subjected to output level-up processing and specific frequency component emphasis processing, and then output to the next voice synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 27 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output sound adjustment unit 112 adjusts the delivery user voice input from the microphone (first sound source) 101 and the comment voice.
  • the processing for increasing the output level of the viewing user comment voice input from the reproduction unit (third sound source) 103 and the processing for emphasizing the specific frequency component are executed.
  • the distribution user voice graph shown at the top of FIG. 27(a) shows the following three voice characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the delivery user's voice input from the microphone (first sound source) 101
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (solid line data ) is entered.
  • the following three audio characteristic (frequency-level characteristic) data are shown in the graph of the viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 shown in the lower part of FIG. 27(a).
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, after the second adjustment in which two adjustment processes are executed by the first output sound adjustment unit 104 and the second output sound adjustment unit 112 on the viewing user comment voice input from the comment sound reproduction unit (third sound source) 103 Data (solid line data) is input.
  • FIG. 27(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 27B shows data characteristic components (frequency- level characteristics).
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 27(b).
  • the distributing user's voice and the viewing user's comment voice are output as voices that are easier to hear than the application voice.
  • This processing example is an adjustment processing example in which the application voice is set to be moderate so that conversation and interaction between the distribution user 20 and the viewing user 30 can be performed smoothly at the end of the game.
  • the maximum value of the output level of each of the three sound sources is set to one
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • Scene 5 Specific example of scene discrimination processing for delivery end scene and audio output adjustment processing according to the discrimination scene]
  • a processing example 5 a specific example of the scene determination processing of the delivery end scene and the audio output adjustment processing according to the determination scene will be described.
  • FIG. 28 is a diagram for explaining a specific example of the scene discrimination processing of the delivery end scene.
  • the scene determination unit 121 analyzes an image displayed on the display unit of the information processing device (transmitting terminal) 120, for example.
  • the display unit of the information processing device (transmitting terminal) 120 displays the result information of the game application.
  • the scene discriminating unit 121 discriminates, for example, based on the display of such an image, that it is a scene in which the delivery of the car racing game application ends.
  • the scene determination unit 121 can analyze the utterance content of the delivery user 20 and determine that the scene is the end of the delivery of the car racing game application.
  • the scene determination unit 121 determines the scene of the application currently being executed in the information processing device (transmitting terminal) 120 .
  • the scene determination section 121 outputs scene determination information, which is the result of the scene determination processing, to the second output audio adjustment section 112 .
  • the second output sound adjustment unit 112 adjusts the output sound from each sound source according to the scene determination information input from the scene determination unit 121 for each of the adjusted sounds of the three sound sources adjusted by the first output sound adjustment unit 104. Specifically, output adjustment processing is further performed on the output sound adjusted by the first output sound adjustment unit 104 .
  • Example of adjustment processing for distribution user voice input from microphone (first sound source) 101 (2) Example of adjustment processing for application voice input from application voice playback unit (second sound source) 102 (3) Comment voice playback unit ( Example of adjustment processing for the viewing user comment voice input from the third sound source 103
  • FIG. 29 shows a specific example of output sound adjustment processing of the following two output adjustment units for each of the sound data of these three sound sources.
  • (b) Adjustment processing in the second output sound adjustment unit 112 Each graph shown in FIGS. is shown. It is frequency-level correspondence data in which frequency (Hz) is set on the horizontal axis and output level (dB) is set on the vertical axis.
  • the adjustment processing in the first output sound adjustment unit 104 shown in FIG. 29(a) is the same as the processing described above with reference to FIG. is set to a predetermined adjustment target level (Lx).
  • the dotted line data shown in each graph in FIG. 29(a) is the audio characteristic data before adjustment in the first output audio adjustment unit 104, that is, the audio characteristic data of the audio output from each sound source, and the solid line data is the first This is audio characteristic data after the first adjustment in the output audio adjustment unit 104 .
  • the audio data after the first adjustment in the first output audio adjustment section 104 is input to the second output audio adjustment section 112 . That is, first adjusted data corresponding to three sound sources having audio characteristics shown as first adjusted data (solid line data) in each graph of FIG. A second adjustment process is executed according to the scene.
  • the second output sound adjustment unit 112 adjusts Then, the following second adjustment processing is executed.
  • (2) As a second adjustment process for the application sound input from the application sound reproduction unit (second sound source) 102, output adjustment is performed so as to raise the output level as a whole.
  • (3) No second adjustment processing is performed on the viewing user comment voice input from the comment voice reproduction unit (third sound source) 103 .
  • the second output audio adjustment unit 112 performs the second adjustment process on the delivery user voice input from the microphone (first sound source) 101, the application audio reproduction unit (second sound source) ) performs the second adjustment process on the application voice input from 102, does not perform the second adjustment process on the viewing user comment voice, and outputs the first adjustment data as it is.
  • the second output sound adjustment unit 112 adjusts the distribution user voice input from the microphone (first sound source) 101 and the application sound input from the application sound reproduction unit (second sound source) 102 , the output level-up processing and the specific frequency component emphasis processing are executed, and output to the next speech synthesizing unit 105 .
  • the audio synthesizing unit 105 generates adjusted audio data adjusted by the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for output audio from three sound sources (delivery user audio, application audio, and viewing user comment audio). Execute synthesis processing (mixing processing).
  • FIG. 30 shows the following processing examples.
  • Example of adjustment processing in the first output audio adjusting unit 104 and the second output audio adjusting unit 112 for distribution user voice input from the microphone (first sound source) 101 (2) From the application voice reproducing unit (second sound source) 102 Example of adjustment processing in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 for input application audio (3) First output audio adjustment for viewing user comment audio input from the comment audio reproduction unit (third sound source) 103 Examples of adjustment processing in unit 104 and second output audio adjustment unit 112 These are shown.
  • the second output audio adjustment unit 112 adjusts the delivery user voice input from the microphone (first sound source) 101 and the application voice. It executes processing for increasing the output level of the application sound input from the reproduction unit (second sound source) 102 and processing for emphasizing a specific frequency component.
  • the distribution user voice graph shown at the top of FIG. 30(a) shows the following three voice characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the delivery user's voice input from the microphone (first sound source) 101
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (solid line data ) is entered.
  • the graph of the application sound shown in the middle of FIG. 30(a) also shows the following three sound characteristic (frequency-level characteristic) data.
  • Pre-adjustment data fine dotted line data
  • First adjusted data rough dotted line data
  • Second adjusted data solid line data obtained by performing two adjustments in the first output sound adjustment unit 104 and the second output sound adjustment unit 112 on the application sound input from the application sound reproduction unit (second sound source) 102
  • the speech synthesizing unit 105 receives the above data (r), that is, speech data having speech characteristics indicated by solid lines in the graph. That is, second adjusted data (second adjusted data) obtained by performing two adjustment processes in the first output audio adjustment unit 104 and the second output audio adjustment unit 112 on the application audio input from the application audio reproduction unit (second sound source) 102 solid line data) is input.
  • FIG. 30(b) shows a specific example of the speech synthesizing process (mixing process) executed by the speech synthesizing unit 105. As shown in FIG. The graph shown in FIG. 30(b) shows data characteristic components (frequency- level characteristics).
  • the three overlapping curves in the graph shown in FIG. 30(b) correspond to the post-adjustment audio characteristics indicated by the solid lines in the graph of FIG. 30(a).
  • the speech synthesizing unit 105 generates synthesized speech data having such speech component data of each sound source and distributes it via the communication unit 106 .
  • the information processing device (receiving terminal) 200 on the side of the viewing user 30 reproduces the synthesized sound having the sound component corresponding to each sound source shown in FIG. 30(b).
  • the distribution user's voice and the application voice are output as voices that are easier to hear than the viewer user comment voice.
  • the maximum value of the output level of each of the three sound sources is reduced to one
  • the first output audio adjustment unit 104 is not limited to this adjustment example, and the adjustment described above with reference to FIGS.
  • the configuration may be such that processing or other adjustment processing is performed.
  • the information processing device (transmitting terminal) of the present disclosure executes processing for adjusting the audio output according to the distribution scene of the distribution content, and generating and distributing the optimum synthesized speech according to the scene. come true.
  • Example 4 Configuration and processing of an information processing apparatus (transmitting terminal) having a configuration capable of executing all the processes of Embodiments 1 to 3
  • Example 4 the configuration and processing of an information processing apparatus (transmitting terminal) having a configuration capable of executing all the processes of Examples 1 to 3 described above will be described.
  • the first to third embodiments described above are embodiments that perform the following processes.
  • the first output sound adjuster 104 adjusts the output sounds of each of the plurality of sound sources, and synthesizes and distributes the adjusted output sounds of each sound source.
  • the first output sound adjuster 104 adjusts the output sound of each of the multiple sound sources, and the second output sound adjuster 104 adjusts the distribution scene of the distribution content. Then, each sound source output sound after these two stages of adjustment is synthesized and distributed.
  • a fourth embodiment described below is an information processing apparatus (transmitting terminal) having a configuration capable of executing all the processes of the first to third embodiments described above.
  • FIG. 31 is a diagram illustrating a configuration example of the information processing device (transmitting terminal) 130 according to the fourth embodiment of the present disclosure.
  • an information processing device (transmitting terminal) 130 includes a microphone (first sound source) 101, an application sound reproducing section (second sound source) 102, a comment sound reproducing section (third sound source) 103, a first output It has an audio adjustment unit 104 , an audio synthesis unit 105 , a communication unit 106 , a content type determination unit 111 , a second output audio adjustment unit 112 , and a scene determination unit 121 .
  • Each of these components has the same configuration as described in Examples 1 to 3 above.
  • the configuration shown in FIG. 31 is a partial configuration of the information processing device (transmitting terminal) 130, and is a block diagram showing a configuration mainly applied to the audio output adjustment processing of the present disclosure.
  • the information processing device (transmitting terminal) 130 has, in addition to the configuration shown in the drawing, components similar to those of a general smartphone (smartphone), such as a display unit, an input unit, a control unit, and a storage unit.
  • the configuration of the information processing apparatus (transmitting terminal) 130 of the fourth embodiment includes the information processing apparatus (transmitting terminal) 100 of the first embodiment described above with reference to FIG. the information processing apparatus (transmitting terminal) 110 of the second embodiment described with reference to FIG. 9, and the information processing apparatus (transmitting terminal) 120 of the third embodiment described with reference to FIG. It is an information processing apparatus including all the configurations of the apparatus of each of these embodiments.
  • the information processing apparatus (transmitting terminal) 130 of the fourth embodiment has a configuration capable of executing the following processes. (a) adjustment processing of the output sound of each sound source in the first output sound adjustment unit 104 described in the first embodiment; (b) adjustment processing of the output sound of each sound source according to the type of distribution content in the second output sound adjustment unit 112 described in the second embodiment; (c) adjustment processing of the output sound of each sound source according to the distribution scene in the second output sound adjustment unit 112 described in the third embodiment;
  • the information processing apparatus (transmitting terminal) 130 of the fourth embodiment shown in FIG. 31 has a configuration capable of executing these processes together or selectively executing them.
  • the first output audio adjustment unit 104 receives the following three audio data. (1) Distributed user voice from microphone (first sound source) 101, (2) application sound from the application sound reproduction unit (second sound source) 102; (3) comment voice reproduction unit (third sound source) 103 for viewing user comment voice;
  • the first output sound adjustment unit 104 inputs three sound data from these three sound sources, and adjusts the maximum output sound of the three sound sources in advance, for example, as described with reference to FIG.
  • An adjustment process is executed to set the prescribed adjustment target level (Lx). Alternatively, the adjustment processing or the like described with reference to FIGS. 7 and 8 is executed. This process corresponds to the process of the first embodiment described above with reference to FIGS. 4 to 8.
  • FIG. 1 A first output sound adjustment unit 104 inputs three sound data from these three sound sources, and adjusts the maximum output sound of the three sound sources in advance, for example, as described with reference to FIG.
  • An adjustment process is executed to set the prescribed adjustment target level (Lx). Alternatively, the adjustment processing or the like described with reference to FIGS. 7 and 8 is executed. This process corresponds to the process of the first embodiment described above with reference to FIGS. 4 to 8.
  • the second output sound adjustment unit 112 receives, from the content type determination unit 111, information on the type of content being executed and distributed by the distribution user 20 in the information processing device (transmitting terminal) 110, and the first output sound adjustment unit 104 Output sound adjustment processing according to the content type is performed for each of the adjusted sounds of the three sound sources. This process corresponds to the process of the second embodiment described above with reference to FIGS. 9 to 14. FIG.
  • the second output sound adjustment unit 112 receives from the scene determination unit 121 the scene information of the application being executed and distributed by the distribution user 20 in the information processing device (transmitting terminal) 110, and the first output sound adjustment unit 104 performs output sound adjustment processing according to the scene for each of the adjusted sounds of the three sound sources adjusted by .
  • This processing corresponds to the processing of the third embodiment described above with reference to FIGS. 15 to 30.
  • the information processing apparatus (transmitting terminal) 130 shown in FIG. 31 has a configuration capable of executing the processes of Examples 1 to 3 together or selectively executing them.
  • FIG. 32 is a diagram illustrating a configuration example of an information processing apparatus (receiving terminal) 200 according to the fifth embodiment of the present disclosure.
  • an information processing apparatus (receiving terminal) 200 includes a communication unit 201, an output audio adjustment unit 202, an audio output unit 203, a microphone 204, an audio output device characteristic analysis unit 205, and an audio output environment analysis unit 206. have.
  • the configuration shown in FIG. 32 is a partial configuration of the information processing device (receiving terminal) 200, and is a block diagram showing a configuration mainly applied to the audio output adjustment processing of the present disclosure.
  • the information processing apparatus (receiving terminal) 200 has, in addition to the configuration shown in the drawing, components similar to those of a general smartphone (smartphone), such as a display unit, an input unit, a control unit, and a storage unit.
  • the communication unit 201 receives transmission data from an information processing device (transmission terminal) that executes content distribution. It also executes processing for transmitting comments input by the viewing user 30 on the information processing device (receiving terminal) 200 side.
  • the output audio adjustment unit 202 executes output adjustment processing of audio data included in transmission data of the information processing device (transmitting terminal). The details of this audio output adjustment processing will be described later.
  • the audio output unit 203 is an audio output unit configured by a speaker or the like, and performs output processing of audio adjusted by the output audio adjustment unit 202 .
  • the microphone 204 acquires the voice of the viewing user 30 and environmental sounds such as ambient noise, and inputs them to the audio output environment analysis unit 206 .
  • the audio output device characteristic analysis unit 205 analyzes the device characteristics of audio output devices such as speakers that constitute the audio output unit 203 . For example, the frequency characteristics of speaker output sound are analyzed. The analysis information is input to the output audio adjustment section 202 .
  • the audio output environment analysis unit 206 inputs the voice of the viewing user 30 and environmental sounds such as ambient noise from the microphone 204, and analyzes the noise sound state of the viewing environment of the content distributed from the information processing device (transmitting terminal). Analyze environmental information such as whether the environment is noisy or quiet. The analysis information is input to the output audio adjustment section 202 .
  • the output audio adjustment unit 202 inputs the following information. (1) From the audio output device characteristic analysis unit 205, the audio output device characteristics corresponding to the audio output device such as the speaker constituting the audio output unit 203 (2) From the audio output environment analysis unit 206, the sound based on the input sound of the microphone 204 Output environment information
  • the audio output device characteristics corresponding to an audio output device such as a speaker input from the audio output device characteristic analysis unit 205 are, for example, characteristics such as frequency characteristics of speaker output sound.
  • the audio output environment information input from the audio output environment analysis unit 206 is information analyzed by the voice of the viewing user 30, environmental sounds such as ambient noise, and the like. This is environmental information such as whether the environment is noisy or quiet.
  • the output audio adjustment unit 202 executes output adjustment processing for the audio input via the communication unit 201, that is, the audio included in the distribution content transmitted by the information processing device (transmitting terminal), based on these pieces of input information.
  • FIG. 33 shows output audio adjustment processing executed by the output audio adjustment unit 202 after inputting the audio output device characteristics corresponding to the audio output device such as the speaker constituting the audio output unit 203 from the audio output device characteristic analysis unit 205. It is a figure explaining a specific example.
  • “(a) Received audio frequency characteristics” in the lower left of FIG. 33 is a graph showing characteristics of audio data received by the communication unit 201 . That is, it is the characteristic of the audio data of the content distributed by the information processing device (transmitting terminal) 100 on the distribution user 20 side.
  • the horizontal axis indicates frequency (Hz), and the vertical axis indicates frequency-level correspondence data.
  • the audio data received by the communication unit 201 of the information processing device (receiving terminal) 200 is the audio corresponding to a plurality of sound sources of the information processing device (transmitting terminal) 100 on the distribution user 20 side (distribution user audio, application audio, viewing data).
  • User comment voice is synthesized voice data, which is voice data adjusted by the processing of any one of the first to fourth embodiments described above.
  • the output audio adjustment unit 202 inputs through the communication unit 201 audio data having characteristics shown in "(a) received audio frequency characteristics" in the lower left of FIG. 33 .
  • the output audio adjustment unit 202 inputs from the audio output device characteristic analysis unit 205 the audio output device characteristics corresponding to the audio output device such as the speaker that constitutes the audio output unit 203 .
  • the audio output device characteristic analysis unit 205 analyzes the characteristics of the audio output unit 203 .
  • An example of the characteristics of the audio output unit 203 analyzed by the audio output device characteristic analysis unit 205 is "(b) audio output device characteristics” shown in the upper part of FIG. “(b) Audio output device characteristics” shown in the upper part of FIG. 33 has a feature that the output in the high frequency range is relatively weak compared to other frequency ranges.
  • the output audio adjustment unit 202 adjusts the audio data received from the transmission terminal via the communication unit 201 based on the characteristics “(b) audio output device characteristics” of the audio output unit 203 analyzed by the audio output device characteristic analysis unit 205. Perform power adjustment.
  • the audio output via the audio output unit (speaker) 203 has a high frequency range compared to the original received data ((a) received audio frequency characteristics). is output as voice data that is easy to hear.
  • the output audio adjustment unit 202 receives from the audio output environment analysis unit 206 audio output environment information, which is analysis information such as the voice of the viewing user 30 and environmental sounds such as ambient noise. For example, it is environmental information such as the noise state of the content viewing environment, for example, whether the environment is noisy or quiet.
  • audio output environment information which is analysis information such as the voice of the viewing user 30 and environmental sounds such as ambient noise.
  • analysis information such as the voice of the viewing user 30 and environmental sounds such as ambient noise.
  • environmental sounds such as ambient noise.
  • environmental information such as the noise state of the content viewing environment, for example, whether the environment is noisy or quiet.
  • the output sound adjustment unit 202 Based on this input information, the output sound adjustment unit 202 performs output adjustment processing for the sound input via the communication unit 201, that is, the sound included in the distribution content transmitted by the information processing device (transmitting terminal).
  • “(a) Reception audio frequency characteristics” in the upper left of FIG. 34 is a graph showing characteristics of audio data received by the communication unit 201 . That is, it is the characteristic of the audio data of the content distributed by the information processing device (transmitting terminal) 100 on the distribution user 20 side.
  • the horizontal axis indicates frequency (Hz), and the vertical axis indicates frequency-level correspondence data.
  • the audio data received by the communication unit 201 of the information processing device (receiving terminal) 200 is the audio corresponding to a plurality of sound sources of the information processing device (transmitting terminal) 100 on the distribution user 20 side (distribution user audio, application audio, viewing data).
  • User comment voice is synthesized voice data, which is voice data adjusted by the processing of any one of the first to fourth embodiments described above.
  • the output audio adjustment unit 202 inputs through the communication unit 201 audio data having characteristics shown in "(a) received audio frequency characteristics" in the upper left of FIG.
  • the output sound adjustment unit 202 receives from the sound output environment analysis unit 206 the sound output environment information that is analyzed based on the sound input from the microphone 204 .
  • the audio output environment analysis unit 206 executes analysis processing of environmental sounds, such as the voice of the viewing user 30 and environmental sounds such as ambient noise, based on the sound input from the microphone 204 .
  • environmental information such as the noise state of the content viewing environment, for example, whether the environment is noisy or quiet.
  • An example of the environmental noise characteristics analyzed by the audio output environment analysis unit 206 is "(b) environmental noise characteristics" shown in the lower part of FIG. “(b) Environmental noise characteristics” shown in the lower part of FIG. 34 has the feature that the noise in the low frequency range is relatively strong compared to other frequency ranges. This can occur, for example, due to wind blowing conditions.
  • the output audio adjustment unit 202 adjusts the output of the audio data received from the transmission terminal via the communication unit 201 based on the "(b) environmental noise characteristics" analyzed by the audio output environment analysis unit 206.
  • the sound output via the sound output unit (speaker) 203 is output as sound data in which the low frequency range is easy to hear even in a windy environment. become.
  • FIG. 33 and 34 the following two types of output sound adjustment processing have been individually described as examples of the output sound adjustment processing by the output sound adjustment unit 202.
  • FIG. (1) Output audio adjustment processing based on the audio output device characteristics corresponding to the audio output device such as a speaker that constitutes the audio output unit 203, input from the audio output device characteristic analysis unit 205 (2) Input from the audio output environment analysis unit 206 Output audio adjustment processing based on audio output environment information based on input sound of microphone 204
  • FIG. 35 is a diagram for explaining a processing example in which the two processes described with reference to FIGS. 33 and 34 are executed together.
  • FIG. 35 shows the following audio characteristic diagrams.
  • A1 Received audio frequency characteristics
  • FIG. 35 shows the following two characteristic diagrams.
  • the audio data output via the audio output unit (speaker) 203 is easier to hear in the high-frequency range than the original received data ((A1) received audio frequency characteristics), and the low-frequency range can be heard even in a windy environment.
  • the region is output as voice data that makes it easy to hear.
  • the information processing device (receiving terminal) 200 on the side of receiving the distributed content which is the fifth embodiment of the present disclosure, adjusts the output sound based on the device characteristics of the sound output device such as the speaker and the environmental noise characteristics.
  • the audio after execution and adjustment is output via an audio output device such as a speaker.
  • This processing realizes the output of audio data having audio characteristics (frequency characteristics) that are easy to hear.
  • FIG. 36 is a diagram illustrating an example of a hardware configuration of an information processing apparatus according to the present disclosure, that is, an information processing apparatus used as a transmitting terminal and a receiving terminal. The components of the hardware shown in FIG. 36 will be described.
  • a CPU (Central Processing Unit) 301 functions as a control section and a data processing section that execute various processes according to programs stored in a ROM (Read Only Memory) 302 or a storage section 308 . For example, the process according to the sequence described in the above embodiment is executed.
  • a RAM (Random Access Memory) 303 stores programs and data executed by the CPU 301 . These CPU 301 , ROM 302 and RAM 303 are interconnected by a bus 304 .
  • the CPU 301 is connected to an input/output interface 305 via a bus 304.
  • the input/output interface 305 includes an input unit 306 including various switches, a keyboard, a mouse, a microphone, and the like, and an output unit for outputting data to a display unit, a speaker, and the like. 307 is connected.
  • the CPU 301 executes various types of processing in response to commands input from the input unit 306 and outputs processing results to the output unit 307, for example.
  • a storage unit 308 connected to the input/output interface 305 consists of, for example, a flash memory, a hard disk, etc., and stores programs executed by the CPU 301 and various data.
  • the communication unit 309 functions as a transmitting/receiving unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via networks such as the Internet and local area networks, and communicates with external devices.
  • a drive 310 connected to the input/output interface 305 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • the technique disclosed in this specification can take the following configurations.
  • a first output sound adjustment unit that receives output sounds from each of a plurality of sound sources and executes adjustment processing for output sounds from each sound source;
  • a speech synthesizing unit that synthesizes the sound source corresponding output speech adjusted in the first output speech adjusting unit to generate synthetic speech data;
  • a communication unit that outputs content including synthesized speech data generated by the speech synthesis unit;
  • the first output audio adjustment unit Analyze the volume level corresponding to the frequency for the output sound of each sound source,
  • An information processing device that executes output sound adjustment processing for matching the maximum value of the frequency-adaptive sound volume level of the output sound of each sound source to a target level.
  • the first output audio adjustment section The information processing apparatus according to (1), wherein the output sound adjustment process is executed to match the maximum value of the frequency-adaptive sound volume level of the output sound of each sound source to one target level common to the plurality of sound sources.
  • the first output audio adjustment unit The information processing apparatus according to (1) or (2), which executes an output sound adjustment process for matching the maximum value of the frequency corresponding sound volume level of the output sound of each sound source to a target level unique to each sound source.
  • the first output audio adjustment section The information processing apparatus according to any one of (1) to (3), which executes output sound adjustment processing for reducing volume level differences corresponding to frequencies of output sounds of each sound source.
  • the output sound of the multiple sound sources is (a) application voice generated by an application that is an execution program of content output via the communication unit; (b) user voice input via a microphone of the information processing device; (c) a viewing user comment voice generated based on a comment from a receiving terminal of a viewing user who receives and views output content via the communication unit;
  • the information processing apparatus according to any one of (1) to (4), including at least two sounds of (a) to (c).
  • the information processing device further includes: Any one of (1) to (5) having a second output sound adjustment unit that executes output sound adjustment processing of the output sound of each sound source according to the type of content output via the communication unit or the scene of the content The information processing device described.
  • the second output audio adjustment section The method according to (6), wherein a sound source to be subjected to the output sound adjustment process is selected according to the type of content to be output via the communication unit, and the output sound adjustment process is performed only for the output sound of the selected sound source. information processing equipment.
  • the second output audio adjustment section the type of content to be output via the communication unit is game content;
  • the second output audio adjustment section When the type of content to be output via the communication unit is music content, The information processing apparatus according to any one of (6) to (8), which executes an output sound adjustment process for emphasizing a music reproduction sound of the music content.
  • the second output audio adjustment section As an execution target of the output sound adjustment process according to the scene of the content output via the communication unit, (a) application voice generated by an application that is an execution program of content output via the communication unit; (b) user voice input via a microphone of the information processing device; (c) a viewing user comment voice generated based on a comment from a receiving terminal of a viewing user who receives and views output content via the communication unit;
  • the information processing apparatus according to any one of (6) to (10), which selects at least one or more of the sounds (a) to (c) and executes output sound adjustment processing for the selected sound.
  • the information processing device a scene discrimination unit that discriminates a scene of content to be output via the communication unit;
  • the scene discrimination unit The scene is determined by analyzing the attribute information of the application being executed in the information processing device, the display information of the display unit, the content of the user's utterance input via a microphone, or the comment of the user viewing the content.
  • the second output audio adjustment unit The information processing apparatus according to any one of (6) to (11), which executes output sound adjustment processing according to the scene determined by the scene determination unit.
  • a communication unit that receives content; an output audio adjustment unit that inputs audio data of content received by the communication unit and executes output audio adjustment processing;
  • the output audio adjustment unit An information processing apparatus that executes output audio adjustment processing based on at least one of audio output device characteristic information constituting an audio output unit and audio output environment information.
  • the output audio adjustment unit generating, as the audio output device characteristic information, analysis information of an output level corresponding to a frequency of an audio output device constituting an audio output unit;
  • the information processing apparatus which executes output audio adjustment processing for increasing the audio output level of the received content for a frequency range in which the output level of the audio output device is relatively low.
  • the output audio adjustment unit Generate frequency analysis information of noise input through a microphone as audio output environment information,
  • An information processing method executed in an information processing device a first output sound adjustment step in which the first output sound adjustment unit inputs the output sound of each of a plurality of sound sources and executes adjustment processing of the output sound of each sound source; a speech synthesizing step in which a speech synthesizing unit synthesizes the sound source corresponding output speech adjusted in the first output speech adjusting unit to generate synthetic speech data; the communication unit executing a communication step of outputting content including the synthesized speech data generated by the speech synthesis unit;
  • the first output audio adjusting step Analyze the volume level corresponding to the frequency for the output sound of each sound source, An information processing method for executing an output sound adjustment process for matching the maximum value of the frequency corresponding sound volume level of the output sound of each sound source to a target level.
  • An information processing method executed in an information processing device a communication step in which the communication unit receives the content via the network; an output audio adjustment unit executing an output audio adjustment step of inputting audio data of content received by the communication unit and executing an output audio adjustment process;
  • a program for executing information processing in an information processing device a first output sound adjustment step of inputting the output sound of each of the plurality of sound sources to the first output sound adjustment unit and executing the adjustment process of the output sound of each sound source; a speech synthesizing step of causing a speech synthesizing unit to synthesize the sound source corresponding output speech adjusted by the first output speech adjusting unit to generate synthesized speech data; cause the communication unit to execute a communication step of outputting content including the synthesized speech data generated by the speech synthesis unit;
  • the first output audio adjusting step Analyze the volume level corresponding to the frequency for the output sound of each sound source, A program for executing output sound adjustment processing for matching the maximum value of the frequency corresponding sound volume level of the output sound of each sound source to the target level.
  • a program for executing information processing in an information processing device a communication step of causing a communication unit to receive content via a network; causing an output audio adjustment unit to execute an output audio adjustment step of inputting audio data of content received by the communication unit and executing an output audio adjustment process;
  • a program for executing output audio adjustment processing based on at least one of audio output device characteristic information constituting an audio output unit and audio output environment information.
  • a series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • a program recording the processing sequence is installed in the memory of a computer built into dedicated hardware and executed, or the program is loaded into a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be pre-recorded on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed in a recording medium such as an internal hard disk.
  • a system is a logical collective configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same housing.
  • the sound of multiple sound sources included in the distribution content from the information processing device is adjusted, and the reception terminal that receives and reproduces the distribution content adjusts the sound of each sound source.
  • a device and a method for making speech easier to hear are realized.
  • content including a first output audio adjustment unit that executes adjustment processing for output audio of each of a plurality of sound sources, and synthesized audio data obtained by synthesizing the output audio corresponding to the sound source adjusted by the first output audio adjustment unit. to output
  • the first output sound adjusting section executes an output sound adjusting process of matching the maximum value of the frequency corresponding sound volume level of the output sound of each sound source to the target level.
  • the second output sound adjustment section executes output sound adjustment processing according to the type of content or the scene.
  • information processing system 20 distribution user 30 viewing user 100, 110, 120, 130 information processing device (transmitting terminal) 101 microphone (first sound source) 102 Application audio playback unit (second sound source) 103 Comment audio playback unit (third sound source) 104 first output audio adjustment unit 105 audio synthesis unit 106 communication unit 111 content type determination unit 112 second output audio adjustment unit 121 scene determination unit 200 information processing device (receiving terminal) 201 communication unit 202 output audio adjustment unit 203 audio output unit 204 microphone 205 audio output device characteristic analysis unit 206 audio output environment analysis unit 301 CPU 302 ROMs 303 RAM 304 bus 305 input/output interface 306 input unit 307 output unit 308 storage unit 309 communication unit 310 drive 311 removable media

Abstract

情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法を提供する。複数音源各々の出力音声の調整処理を実行する第1出力音声調整部と、第1出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第1出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第2出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。具体的には、例えば送信端末が複数音源からの出力音の合成音を生成して送信し、受信端末で合成音を再生する構成において、各音源の出力音のバランスなどを自動調整して送信する制御等を行う情報処理装置、および情報処理方法、並びにプログラムに関する。
 近年、スマホ(スマートフォン)やPC、ゲーム端末等の情報処理装置を利用した動画配信や、ゲームアプリ(アプリケーション)の実況を伴うゲーム配信、あるいは音楽コンテンツの配信など、様々なコンテンツ配信処理が行われている。
 このようなネットワークを介したコンテンツ配信の多くは、画像データと音声データを併せて配信する。例えば、あるユーザがスマホ(スマートフォン)やPC、ゲーム端末等の情報処理装置を利用してゲームアプリの実況データを配信する場合、ゲームアプリのBGMなどのアプリ音声と、ゲーム実行者であるユーザの声を合成(ミキシング)して配信する処理が行われる。
 さらに、配信コンテンツであるゲーム実況コンテンツを受信し視聴する視聴ユーザが視聴端末でゲーム実況に対する応援コメントなどをテキスト入力し、このテキスト入力データを、ネットワークを介してゲーム配信端末に送信する処理が行われる場合がある。
 視聴端末側で入力されたテキストデータはネットワークを介してゲーム実行端末が受信する。
 ゲーム実行端末は、受信テキストを音声データに変換してコメント音声を生成し、生成したコメント音声をゲームアプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する処理が行われる。
 この場合、視聴端末側では、ゲームアプリのBGMなどのアプリ音声と、ゲーム実行者であるユーザの声、さらに、コメント音声、これら3種類の音声の合成音声が再生されることになる。
 このような複数の音声の合成音を再生する場合、合成音声に含まれる各音声の音量バランスが悪いと、1つの音源からの大きな音声によって、他の音源の音声データが聞き取れない場合がある。
 なお、複数音源の合成処理、再生処理について開示した従来技術として、例えば、特許文献1(国際公開WO2018/096954号公報)がある。
 特許文献1(国際公開WO2018/096954号公報)には、例えばオーケストラなど、複数の楽器の演奏データを再生する構成において、各楽器の位置に応じた再生音を生成する構成を開示している。
 しかし、上記の従来技術は、各音源(楽器)の位置を反映した再生音の生成を実現するものであり、各音源の音量の調整処理については言及していない。
 上述したように、ゲームアプリの実況を配信する場合、ゲームアプリのBGMなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して配信することになる。このような複数音源の出力音を合成して配信する場合に各音源の出力音の音量バランスが悪いと、1つの音源からの大きな音声によって、他の音源の音声が聞き取れないといった事態が発生する可能性がある。
国際公開WO2018/096954号公報
 本開示は、例えば、上記の問題点に鑑みてなされたものであり、例えば送信端末が複数音源からの出力音の合成音を生成して送信し、受信端末で合成音を再生する構成において、各音源の出力音のバランスなどを自動調整して送信する制御等を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整部と、
 前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
 前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
 前記第1出力音声調整部は、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置にある。
 さらに、本開示の第2の側面は、
 コンテンツを受信する通信部と、
 前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
 前記出力音声調整部は、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置にある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 第1出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整ステップと、
 音声合成部が、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
 通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 情報処理装置において実行する情報処理方法であり、
 通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
 出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 第1出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第1出力音声調整ステップと、
 音声合成部に、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
 通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラムにある。
 さらに、本開示の第6の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
 出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
 具体的には、例えば、複数音源各々の出力音声の調整処理を実行する第1出力音声調整部と、第1出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第1出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第2出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。
 これらの処理により、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
情報処理装置を利用したコンテンツ配信処理について説明する図である。 情報処理装置を利用したコンテンツ配信処理における音声データの合成と送信、再生処理の一例について説明する図である。 情報処理装置とサーバを利用したコンテンツ配信処理について説明する図である。 情報処理装置(送信端末)の構成例(実施例1)について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の構成例(実施例2)について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)が配信するコンテンツが音楽コンテンツである場合の配信処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の構成例(実施例3)について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)のシーン判別部が実行するシーン判別処理の一例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(送信端末)の第1出力音声調整部と第2出力音声調整部が実行する音声調整処理例と、音声合成部が実行する音声合成処理例について説明する図である。 情報処理装置(送信端末)の構成例(実施例4)について説明する図である。 情報処理装置(受信端末)の構成例(実施例5)について説明する図である。 情報処理装置(受信端末)の出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(受信端末)の出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置(受信端末)の出力音声調整部が実行する音声調整処理例について説明する図である。 情報処理装置のハードウェア構成例を示す図である。
 以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
 1.情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について
 2.(実施例1)本開示の実施例1の情報処理装置(送信端末)の構成と処理について
 3.(実施例2)配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について
  3-1.(処理例1)配信コンテンツがゲームコンテンツである場合の音声出力調整処理
  3-2.(処理例2)配信コンテンツが音楽コンテンツである場合の音声出力調整処理
 4.(実施例3)配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について
  4-1.(処理例1)シーン1=ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-2.(処理例2)シーン2=ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-3.(処理例3)シーン3=クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-4.(処理例4)シーン4=ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
  4-5.(処理例5)シーン5=配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例
 5.(実施例4)実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)の構成と処理について
 6.(実施例5)本開示の実施例5の情報処理装置(受信端末)の構成と処理について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について]
 まず、情報処理装置におけるアプリケーションの実行、コンテンツ配信処理例について説明する。
 本開示の情報処理装置は、具体的には、例えばスマホ(スマートフォン)やPC、ゲーム端末等の情報処理装置であり、インターネット等のネットワークを介した通信を行うことが可能な装置である。
 本開示の情報処理装置は、例えば、ネットワークを介した動画配信や、ゲームアプリ(アプリケーション)の実行によるゲームコンテンツや音楽コンテンツなどのコンテンツ配信を行うことが可能な装置である。
 図1は、本開示の情報処理装置を利用した情報処理システム10の一構成例を示す図である。
 図1には、本開示の情報処理装置の一例として、スマホ(スマートフォン)を利用した例を示している。
 情報処理装置(送信端末)100は、配信ユーザ(例えばゲーム実行プレーヤー)20の端末である。
 配信ユーザ(例えばゲーム実行プレーヤー)20は、情報処理装置(送信端末)100を利用してゲームアプリ(アプリケーション)を実行する。
 このゲームアプリ画面やゲームアプリ音声(アプリ音声)などからなるコンテンツは、インターネット等のネットワークを介して視聴ユーザ30の情報処理装置(受信端末)200に配信される。
 アプリ音声とは、例えば、アプリによって生成されるBGMや、ゲームアプリ内で発生する様々な音声である。例えば図に示す例は自動車レースのゲームアプリであり、自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声が含まれる。
 さらに、情報処理装置(送信端末)100を利用してゲームを実行するユーザ、すなわち配信ユーザ20は、実行中のゲームの実況を行う。すなわち情報処理装置(送信端末)100のマイクを介して、配信ユーザ20の声を入力して、ゲームの説明や状況の説明などを行う。
 この配信ユーザ20の声は、上述のアプリ音声とともに、視聴ユーザ30側の情報処理装置(受信端末)200に送信され、情報処理装置(受信端末)200側で再生される。
 さらに、視聴ユーザ30は、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力することが可能であり、この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 配信ユーザ20側の情報処理装置(送信端末)100は、情報処理装置(受信端末)200からの受信コメントを音声データに変換してコメント音声を生成し、生成したコメント音声も、アプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 配信ユーザ20側の情報処理装置(送信端末)100は、情報処理装置(受信端末)200から受信した音声コメントを、アプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する。
 このように、ゲームアプリのBGMなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して配信する場合、各音源の出力音の音量バランスが悪いと、情報処理装置(受信端末)200側の視聴ユーザ30は、各音源の音声を聞き取れなくなる場合がある。
 例えば、3種類の音源の中の1つの音源の音量が他の2つの音源の音量に比較して明らかに大きい場合、その大きな音源の音声によって、他の音源の音声データが聞き取れなくなる。
 図2を参照して具体例について説明する。
 図2において、配信ユーザ20側の情報処理装置(送信端末)100は、音声合成部において、
 (a)配信ユーザ音声
 (b)アプリ音声(アプリBGMなど)
 (c)視聴ユーザコメント音声
 これらの3種類の音源の音声データを合成した合成音声を生成して、ネットワークを介して視聴ユーザ30側の情報処理装置(受信端末)200に送信する。
 視聴ユーザ30側の情報処理装置(受信端末)200では、配信ユーザ20側の情報処理装置(送信端末)100から受信した合成音声をスピーカやイヤホンを介して出力する。
 ここで、例えば、(b)アプリ音声(アプリBGMなど)の音量が、他の2つの音声((a)配信ユーザ音声や(c)視聴ユーザコメント音声)に比較して明らかに大きい場合、視聴ユーザ30は、大きな音量のBGM音声によって、他の音源の音声データ、すなわち配信ユーザ音声や視聴ユーザコメントが聞き取れなくなる。
 本開示は、このような問題を解決するものである。
 例えば図1に示すような構成、すなわち、情報処理装置(送信端末)100から複数音源の出力音の合成データを生成して送信し、情報処理装置(受信端末)200で配信音声を再生する構成において、各音源の出力音のバランスを自動調整して送信、または再生する制御を行う。
 なお、図1の情報処理システム10は、情報処理装置(送信端末)100と複数の情報処理装置(受信端末)200間で、直接、データ送受信を行うシステムの構成例であるが、例えば図3に示すように、ネットワーク上の管理サーバ50を介してデータ送受信を行う構成としてもよい。
 図3に示す構成において、配信ユーザ20側の情報処理装置(送信端末)100は、データを管理サーバ50に送信する。視聴ユーザ30側の情報処理装置(受信端末)200は、管理サーバ50から、このデータを受信して視聴する。
 このようなシステム構成においても、配信ユーザ20側の情報処理装置(送信端末)100は、ゲームアプリの実行画面データと、ゲームアプリのBGMなどのアプリ音声や、ゲーム実行ユーザの声、さらに視聴ユーザのコメント音声、これら複数の異なる音源の音声データを合成して管理サーバ50に送信する。視聴ユーザ30側の情報処理装置(受信端末)200は、管理サーバ50から、この合成音声データを、画像データとともに受信して視聴する。
 このような構成においても、3種類の音源の中の1つの音源の音量が他の2つの音源の音量に比較して明らかにに大きい場合、その大きな音源の音声によって、他の音源の音声データが聞き取れなくなる場合がある。
 本開示は、このような問題を解決するものである。
  [2.(実施例1)本開示の実施例1の情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例1の情報処理装置(送信端末)100の構成と処理について説明する。
 図4は、本開示の実施例1の情報処理装置(送信端末)100の構成例を示す図である。
 図4に示すように、情報処理装置(送信端末)100は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106を有する。
 なお、図4に示す構成は、情報処理装置(送信端末)100の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)100は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 マイク(第1音源)101は、情報処理装置(送信端末)100に備えられたマイクであり、例えば情報処理装置(送信端末)100を利用してゲームアプリを実行中の配信ユーザ20の声を入力して第1出力音声調整部104に入力する。
 なお、ここでは一例として、配信ユーザ20は、情報処理装置(送信端末)100において自動車レースのゲームアプリを実行しており、配信ユーザ20は、このゲームアプリの説明や実況を行っているものとする。
 図4に示すように、マイク(第1音源)101に入力された配信ユーザ音声は第1出力音声調整部104に入力される。
 アプリ音声再生部(第2音源)102は、情報処理装置(送信端末)100において実行中のアプリの再生音、図に示すアプリ音声を生成して第1出力音声調整部104に出力する。
 本例では、配信ユーザ20は、情報処理装置(送信端末)100において自動車レースのゲームアプリを実行しており、アプリ音声再生部(第2音源)102は、ゲームアプリによって生成されるBGMや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第1出力音声調整部104に出力する。
 コメント音声再生部(第3音源)103は、情報処理装置(送信端末)100から送信する画像や音声データを再生して視聴する視聴ユーザ30のコメントを再生する。
 視聴ユーザ30は、配信ユーザ20側の情報処理装置(送信端末)100から送信されるゲームアプリ実行画面や音声データを、視聴ユーザ30側の情報処理装置(受信端末)200で受信、再生しながら、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力する。
 この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 配信ユーザ20側の情報処理装置(送信端末)100のコメント音声再生部103は、情報処理装置(受信端末)200から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声(視聴ユーザコメント音声)を第1出力音声調整部104に出力する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 この場合、配信ユーザ20側の情報処理装置(送信端末)100のコメント音声再生部103は、情報処理装置(受信端末)200から受信した音声コメントを、そのまま第1出力音声調整部104に出力する。
 次に、第1出力音声調整部104の実行する処理について説明する。
 第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、各音源の音声データの出力調整処理を行う。
 図5を参照して、第1出力音声調整部104が実行する出力調整処理の具体例について説明する。
 図5には、第1出力音声調整部104が入力する3つの音源の音声データ各々について、
 (a)調整前の音声データ特性、
 (b)調整後の音声データ特性、
 これら、調整前後の音声特性データを示している。
 各音声データ特性は、横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図5の上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の(a)調整前の音声データ特性と(b)調整後の音声データ特性
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の(a)調整前の音声データ特性と(b)調整後の音声データ特性
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の(a)調整前の音声データ特性と(b)調整後の音声データ特性
 これら3音源の調整前後の音声データ特性を示している。
 第1出力音声調整部104は、これら3音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。
 なお、図に示すように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性(=グラフの曲線形状)は維持したまま、各音源の最大出力値を予め規定した調整目標レベル(Lx)に設定するように調整する。
 この調整処理により、3つの異なる音源からの出力(音量)がバランスされ、1つの音源の音量が他に比較して大きすぎて、1つの音源の音声のみが聞こえて他の音源の音声が聞き取れなくなるといった問題が低減される。
 すなわち、この調整処理により、3つの音声データの合成音を再生した場合、各音源の音声データをバランスよく聞き取ることができるようになる。
 第1出力音声調整部104は、図5に示す3つの音源に対応する(b)調整後(第1出力音声調整部からの出力)の音声データ特性を持つ3つの調整後音声データを生成し、この調整後音声データを音声合成部105に出力する。
 音声合成部105は、第1出力音声調整部104が生成した3音源の調整音声データ、すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の調整後の音声データ、
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整後の音声データ、
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整後の音声データ、
 これら3音源の調整後の音声データを合成(ミキシング)する。
 図6を参照して、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例について説明する。
 図6には、音声合成部105の入出力データとして、
 (a)合成前(音声合成部105への入力)
 (b)合成語(音声合成部105からの出力)
 これらのデータを示している。
 各グラフに示す音声データ特性は、横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 (a)合成前(音声合成部105への入力)のデータは、第1出力音声調整部104から入力する3つの音源の調整後音声特性データである。
 図6(a)の上から順に以下の3つの音源の調整後音声特性データを示している。
 (1)マイク(第1音源)101から入力した配信ユーザ音声の調整後音声特性データ
 (2)アプリ音声再生部(第2音源)102から入力したアプリ音声の調整後音声特性データ
 (3)コメント音声再生部(第3音源)103から入力した視聴ユーザコメント音声の調整後音声特性データ
 これら3音源の調整後音声データ特性を示している。
 なお、図6(a)合成前(音声合成部105への入力)として示す音声特性データ中、点線データは、第1出力音声調整部104における調整前の音声特性データであり、実線データが第1出力音声調整部104における調整処理後の音声特性データである。
 実線で示す第1出力音声調整部104における調整処理後の音声特性データ、すなわち最大出力が調整目標レベル(Lx)に調整されたデータが音声合成部105に対する入力データとなる。
 音声合成部105は、図6(a)の各グラフの実線データとして示す以下の各音声データ、すなわち、
 (1)マイク(第1音源)101から入力した配信ユーザ音声の調整後音声特性データ
 (2)アプリ音声再生部(第2音源)102から入力したアプリ音声の調整後音声特性データ
 (3)コメント音声再生部(第3音源)103から入力した視聴ユーザコメント音声の調整後音声特性データ
 これらの3音源の調整後音声データを合成(ミキシング)して1つの合成音声を生成する。
 図6(b)には、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図6(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図6(a)のグラフに実線で示す調整後音声特性データを示す曲線である。
 図6(b)に示すグラフから理解されるように、合成音声に含まれる3つの音源の各データの最大出力レベルはすべて調整目標レベル(Lx)に設定されている。
 すなわち3つの音源の出力は、平均化されており、突出した最大値を持つような音源データはない。
 従って、この合成音を再生した場合、3つの音源の音声データの音量レベルは、ほぼ同じレベルとなり、どれか1つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が解消されることになる。
 音声合成部105が生成した合成音声データは、通信部106を介して配信され、視聴ユーザ30側の情報処理装置(受信端末)200において再生される。
 視聴ユーザ30側の情報処理装置(受信端末)200において再生される合成音声データは、図6(b)に示すグラフ内の3つの曲線によって示される3つの音源の調整後音声特性データによって構成される合成音声データである。
 すなわち、
 (1)マイク(第1音源)101から入力した配信ユーザ音声の調整後音声特性データ
 (2)アプリ音声再生部(第2音源)102から入力したアプリ音声の調整後音声特性データ
 (3)コメント音声再生部(第3音源)103から入力した視聴ユーザコメント音声の調整後音声特性データ
 これらの3つの音源の調整後音声データによって構成される合成音声データとなる。
 前述したように、合成音声に含まれる3つの音源各々の出力レベルの最大値は調整目標レベル(Lx)に調整されており、突出した最大値を持つような音源データがないように調整されている。従って、視聴ユーザ30側の情報処理装置(受信端末)200において再生される合成音声内の3つの音源の音声データの最大音量レベルは、ほぼ同じレベルとなり、どれか1つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が発生する可能性が低減され、いずれの音源の音声データも平均的に聞き取ることが可能となる。
 なお、上記実施例において、第1出力音声調整部104は、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う処理例を説明したが、第1出力音声調整部104は、この調整例に限らず、その他の調整処理を行う構成としてもよい。
 第1出力音声調整部104が実行するその他の調整例について図7、図8を参照して説明する。
 図7は、第1出力音声調整部104の実行する調整処理と、音声合成部105の実行する合成処理をまとめて示した図である。
 (a)第1出力部104の調整処理
 (b)音声合成部105の合成処理
 これらの各処理を示している。
 図7(a)の第1出力部104の調整処理には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整処理例
 これら3つの音源からの出力音声の調整処理例を示している。
 各グラフ上の点線データが調整前の音声特性データ(周波数-レベル特性)であり、実線データが調整後の音声特性データ(周波数-レベル特性)である。
 図から理解されるように、第1出力音声調整部104は、これら3音源の出力音声に対する調整処理として、各音声の最大出力を、各音源に対応させて予め規定した音源固有の調整目標レベル(Lx,Ly,Lz)に、それぞれ設定する調整処理を実行する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声については、最大出力を、予め規定した配信ユーザ音声固有の調整目標レベル(Lx)に設定する調整処理を実行する。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声については、最大出力を、予め規定したアプリ音声固有の調整目標レベル(Ly)に設定する調整処理を実行する。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、最大出力を、予め規定した視聴ユーザコメント音声固有の調整目標レベル(Lz)に設定する調整処理を実行する。
 このように、第1出力音声調整部104は、これら3音源の出力音声に対する調整処理として、各音声の最大出力を、各音源に対応させて予め規定した固有の調整目標レベル(Lx,Ly,Lz)に、それぞれ設定する調整処理を実行する。
 図7(b)には、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図7(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図7(a)のグラフに実線で示す調整後音声特性に相当する。
 図7(b)に示すグラフから理解されるように、合成音声に含まれる3つの音源の各データの最大出力レベルは、各音源に対応させて予め規定した固有の調整目標レベル(Lx,Ly,Lz)に設定されている。
 この合成音を再生した場合、3つの音源の音声データの音量レベルの最大値は、調整前より減少しているため、どれか1つの音源の音声データによって他の音源の音声データが聞こえにくくなるといった問題が低減される。
 図8は、第1出力音声調整部104が実行する他の調整例について説明する図である。
 図8にも図7と同様、第1出力音声調整部104の実行する調整処理と、音声合成部105の実行する合成処理をまとめて示している。
 (a)第1出力部104の調整処理
 (b)音声合成部105の合成処理
 これらの各処理を示している。
 図8(a)の第1出力部104の調整処理には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声の調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整処理例
 これら3つの音源からの出力音声の調整処理例を示している。
 各グラフ上の点線データが調整前の音声特性データ(周波数-レベル特性)であり、実線データが調整後の音声特性データ(周波数-レベル特性)である。
 この図8に示す例は、第1出力音声調整部104は、3音源の出力音声に対する調整処理として、先に図7を参照して説明した調整処理と同様、各音声の最大出力を各音源固有の調整目標レベル(Lx,Ly,Lz)に設定する調整処理を実行するとともに、周波数の変化に応じた出力レベルの差分を減少させる調整処理を行う調整例である。
 すなわち、図8に示す例は、図7を参照して説明した調整処理に加え、以下の調整処理を行った例である。
 各音源の点線で示す調整前の音声特性データ(周波数-レベル特性)について、周波数の変化に応じた出力レベルの差分を減少させる調整処理を行い、曲線を均一化(フラット)になる方向に調整して、実線で示す調整後の音声特性データ(周波数-レベル特性)を生成している。
 このような周波数に応じた出力差分を減少させる調整を行うことで、特定周波数の大音量を抑制させることが可能となる。
 このように、図8に示す例は、第1出力音声調整部104は、3音源の出力音声に対する調整処理として、各音声の最大出力を各音源に対応させて予め規定した固有の調整目標レベル(Lx,Ly,Lz)に、それぞれ設定し、さらに周波数に応じた出力差分を減少させる調整処理を実行する。
 図8(b)には、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図8(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図8(a)のグラフに実線で示す調整後音声特性に相当する。
 図8(b)に示すグラフから理解されるように、合成音声に含まれる3つの音源の各データは、最大出力レベルが各音源対応の固有の調整目標レベル(Lx,Ly,Lz)に設定され、さらに周波数に応じた出力レベルの差分が減少している。
 この合成音を再生した場合、3つの音源の音声データの音量レベルの最大値は、調整前より減少し、さらに全周波数領域に渡りフラットな再生音が出力される。
 なお、上記実施例では、合成対象の音声データを以下の3つの音源の音声データとした例を説明した。
 (1)マイク(第1音源)101の入力音声
 (2)アプリ音声再生部(第2音源)102の再生音声
 (3)コメント音声再生部(第3音源)103の再生音声、
 配信ユーザ20側の情報処理装置(送信端末)100において合成、配信する音声データは、これら3つの音源の音声データに限られるものではない。例えば上記3つのうちの2つのみの音源の音声データの合成処理、配信処理を行う構成としてもよい。
 さらに、上記3つの音源以外の音源の音声データを合成、配信対象の音声データとして設定する構成も可能である。
  [3.(実施例2)配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例2として、配信コンテンツの種類に応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について説明する。
 配信ユーザ20は、情報処理装置(送信端末)を利用して様々なコンテンツを配信することができる。
 例えば、ゲームコンテンツ、音楽コンテンツ、教育コンテンツ等、様々な異なる種類のコンテンツ対応アプリを実行して配信することが可能である。
 以下に説明する実施例2は、配信コンテンツの種類に応じて異なる音声出力調整処理を実行する情報処理装置(送信端末)の実施例である。
 図9は、本開示の実施例2の情報処理装置(送信端末)110の構成例を示す図である。
 図9に示すように、情報処理装置(送信端末)110は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106、さらに、コンテンツ種類判別部111、第2出力音声調整部112を有する。
 なお、図9に示す構成は、情報処理装置(送信端末)110の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)110は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 この第2実施例の情報処理装置(送信端末)110の構成は、先に図4を参照して説明した第1実施例の情報処理装置(送信端末)100の構成に、コンテンツ種類判別部111と、第2出力音声調整部112を追加した構成である。
 マイク(第1音源)101は、情報処理装置(送信端末)110に備えられたマイクであり、例えば情報処理装置(送信端末)110を利用してゲームアプリを実行中の配信ユーザ20の声を入力して第1出力音声調整部104に入力する。
 図9に示すように、マイク(第1音源)101に入力された配信ユーザ音声は第1出力音声調整部104に入力される。
 アプリ音声再生部(第2音源)102は、情報処理装置(送信端末)110において実行中のアプリの再生音、図に示すアプリ音声を生成して第1出力音声調整部104に出力する。
 例えば配信ユーザ20が、情報処理装置(送信端末)110において自動車レースのゲームアプリを実行している場合、アプリ音声再生部(第2音源)102は、ゲームアプリによって生成されるBGMや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第1出力音声調整部104に出力する。
 コメント音声再生部(第3音源)103は、情報処理装置(送信端末)110から送信する画像や音声データを再生して視聴する視聴ユーザ30のコメントを再生する。
 視聴ユーザ30は、配信ユーザ20側の情報処理装置(送信端末)110から送信されるアプリ実行画面や音声データを、視聴ユーザ30側の情報処理装置(受信端末)200で受信、再生しながら、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力する。
 この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)110に送信される。
 配信ユーザ20側の情報処理装置(送信端末)110のコメント音声再生部103は、情報処理装置(受信端末)200から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声(視聴ユーザコメント音声)を第1出力音声調整部104に出力する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 この場合、配信ユーザ20側の情報処理装置(送信端末)110のコメント音声再生部103は、情報処理装置(受信端末)200から受信した音声コメントを、そのまま第1出力音声調整部104に出力する。
 次に、第1出力音声調整部104は、先に説明した実施例1と同様の各音源の出力音声の調整処理を実行する。
 すなわち、第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、各音源の音声データの出力調整処理を行う。
 第1出力音声調整部104は、例えば先に図5を参照して説明した調整処理を実行する。
 すなわち、第1出力音声調整部104は、上記3つの音源の出力音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。
 なお、先に図5を参照して説明したように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性(=グラフの曲線形状)は維持したまま、各音源の最大出力値を予め規定した調整目標レベル(Lx)に設定するように調整する。
 この調整処理により、3つの異なる音源からの出力(音量)がバランスされ、1つの音源の音量が他に比較して大きすぎるといった問題が低減されることになる。
 第1出力音声調整部104は、図5に示す3つの音源に対応する(b)調整後(第1出力音声調整部からの出力)の音声データ特性を持つ3つの調整後音声データを生成し、この調整後音声データを第2出力音声調整部112に出力する。
 第2出力音声調整部112は、先に説明した実施例1にはない音声出力調整部である。
 第2出力音声調整部112は、配信ユーザ20が情報処理装置(送信端末)110において実行し、配信しているコンテンツの種類、例えばゲームコンテンツ、音楽コンテンツ、教育コンテンツ等、様々な異なる種類のコンテンツに応じた音声出力調整処理を実行する。
 第2出力音声調整部112は、コンテンツ種類判別部111から配信ユーザ20が情報処理装置(送信端末)110において実行し、配信しているコンテンツの種類に関する情報を入力し、入力したコンテンツ種類に応じた出力音声調整処理を行う。
 コンテンツの種類とは、例えば、ゲームコンテンツ、音楽コンテンツ、教育コンテンツ等のコンテンツの内容に応じた種類である。ゲームコンテンツを、さらにゲーム内容に応じてバトル型コンテンツ、レース型コンテンツなどに分類してもよい。
 コンテンツ種類判別部111は、例えば、情報処理装置(送信端末)110において起動され実行中のコンテンツのタイトルやカテゴリ等の属性情報を情報処理装置(送信端末)110内のメモリから読み取り、コンテンツ種類を判別して第2出力音声調整部112に通知する。
 なお、コンテンツ種類判別部111は、情報処理装置(送信端末)110内のメモリからコンテンツのタイトルやカテゴリ等の属性情報を取得できない場合、情報処理装置(送信端末)110を利用中の配信ユーザ20の属性情報(ハッシュタグ情報など)を情報処理装置(送信端末)110内のメモリから取得して、配信ユーザ20が好んで実行するコンテンツの種類を判別して第2出力音声調整部112に通知する処理を行ってもよい。
 あるいは、情報処理装置(送信端末)110内のメモリ内に記録されている配信履歴データを読み取って、この配信履歴データから推定されるコンテンツの種類を判別して第2出力音声調整部112に通知する処理を行ってもよい。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、コンテンツ種類判別部111から入力するコンテンツ種類に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 図10以下を参照して、第2出力音声調整部112が実行するコンテンツ種類に応じた出力調整処理と、音声合成部105が実行する音声合成処理の具体例について説明する。
 以下の2つの処理例について、順次、説明する。
 (処理例1)配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツがゲームコンテンツである場合の処理例
 (処理例2)配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツが音楽コンテンツである場合の処理例
  [3-1.(処理例1)配信コンテンツがゲームコンテンツである場合の音声出力調整処理]
 まず、図10、図11を参照して、配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツがゲームコンテンツである場合に、第2出力音声調整部112が実行するコンテンツ種類に応じた出力調整処理と、音声合成部105が実行する音声合成処理の具体例について説明する。
 まず、図10を参照して、配信コンテンツがゲームコンテンツである場合に実行される第1出力音声調整部104と、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図10には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図10には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図10(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図10(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図10(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 なお、以下では、第1出力音声調整部104における音声出力調整を「第1調整」、第2出力音声調整部112における音声出力調整を「第2調整」と定義して説明する。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図10(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、コンテンツ種類に応じた第2調整処理が実行される。
 図10に示す例は、配信コンテンツ種類=ゲームコンテンツである場合の調整処理例である。
 図10(b)が、配信コンテンツ種類=ゲームコンテンツである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図10(b)に示すように、配信コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は行わない。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、配信コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理のみ実行し、アプリ音声、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみに対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図10(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図11を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図11には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図11(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図10を参照して説明したように、配信コンテンツ種類=ゲームコンテンツである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図11(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図11(a)の中段と下段に示すアプリ音声再生部(第2音源)102から入力するアプリ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図11(a)の中段と下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図11(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図11(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図11(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図11(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図11(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図10、図11を参照して説明した処理例、すなわち、
 配信コンテンツ種類=ゲームコンテンツ
 である場合における第2出力音声調整部112の各音源音声の出力調整例は一例であり、配信コンテンツ種類=ゲームコンテンツにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図10、図11を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [3-2.(処理例2)配信コンテンツが音楽コンテンツである場合の音声出力調整処理]
 次に、図12以下を参照して、配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツが音楽コンテンツである場合の音声出力調整処理例について説明する。
 図12は、配信ユーザ20が情報処理装置(送信端末)110を用いて音楽コンテンツ再生アプリを実行して、配信している例を示している。
 情報処理装置(送信端末)110には、様々な楽曲を演奏、歌唱するミュージシャン、歌手などのパフォーマンス画像が再生される。この画像に併せて音楽コンテンツの音声データも再生される。
 これら音楽コンテンツの画像、音声は、ネットワークを介して視聴ユーザ30側の情報処理装置(受信端末)200においても再生される。
 音楽コンテンツの音声は、配信ユーザ20側の情報処理装置(送信端末)110のアプリ音声再生部(第2音源)102において再生されるアプリ音声である。
 ネットワークを介して配信される音声データは、このアプリ音声のみならず、マイク(第1音源)101から入力する配信ユーザ音声、さらに、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声がある。
 例えば図12に示す配信ユーザ20の発話である「元気がでる曲、みんなも聞いてね」、この配信ユーザ20の発話は情報処理装置(送信端末)110のマイクを介して入力されアプリ音声とともに配信される。
 さらに、図12に示す視聴ユーザ30のコメントとして示す「この曲、最高」、このコメントは、視聴ユーザ30が情報処理装置(受信端末)200にテキスト入力するコメントである。入力テキストはネットワークを介して情報処理装置(送信端末)110が受信し、受信テキストを音声データに変換してコメント音声を生成する。生成されたコメント音声も、アプリ音声や、ゲーム実行ユーザの声とともに合成(ミキシング)して配信する処理が行われる。
 図9に示す情報処理装置(送信端末)110の第2出力音声調整部112は、配信コンテンツが音楽コンテンツである場合、この配信コンテンツ種類に応じて、上記3つの音源対応の音声データ(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)の出力調整処理を実行する。
 図13、図14を参照して、配信ユーザ20が情報処理装置(送信端末)110を用いて実行、配信しているコンテンツが音楽コンテンツである場合に、第2出力音声調整部112が実行するコンテンツ種類に応じた出力調整処理と、音声合成部105が実行する音声合成処理の具体例について説明する。
 まず、図13を参照して、配信コンテンツが音楽コンテンツである場合に実行される第1出力音声調整部104と、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図13には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図13には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図13(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図13(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図13(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図13(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、コンテンツ種類に応じた第2調整処理が実行される。
 図13に示す例は、配信コンテンツ種類=音楽コンテンツである場合の調整処理例である。
 図13(b)が、配信コンテンツ種類=音楽コンテンツである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図13(b)に示すように、配信コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理は行わない。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、配信コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理のみ実行し、配信ユーザ音声、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、アプリ音声再生部(第2音源)102から入力するアプリ音声のみに対して、出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図13(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図14を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図14には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図14(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図13を参照して説明したように、配信コンテンツ種類=音楽コンテンツである場合、第2出力音声調整部112は、アプリ音声再生部(第2音源)102から入力するアプリ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図14(a)の中段に示すアプリ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図14(a)の上段と下段に示すマイク(第1音源)101から入力する配信ユーザ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図14(a)の上段と下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図14(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図14(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図14(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図14(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104のみにおいて1つの調整処理が実行された第1調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図14(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図13、図14を参照して説明した処理例、すなわち、
 配信コンテンツ種類=音楽コンテンツ
 である場合における第2出力音声調整部112の各音源音声の出力調整例は一例であり、配信コンテンツ種類=音楽コンテンツの場合に上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図13、図14を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4.(実施例3)配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例3として、配信コンテンツの配信シーンに応じた音声出力調整を実行する情報処理装置(送信端末)の構成と処理について説明する。
 配信ユーザ20は、情報処理装置(送信端末)を利用して、上述したように様々なアプリに応じたコンテンツを実行して配信する。さらに、1つのアプリの実行中にも、様々なシーンが発生する。
 例えば先に実施例1として説明したゲームアプリの一例である自動車レースのゲームコンテンツであれば、ゲームの開始前、開始後、ゲーム終了後など様々な異なるシーンが発生する。
 ゲームとしての自動車レースの実行中にも、クラッシュなどの事故の場面、追い越すシーンなど、様々なシーンがある。
 以下に説明する実施例3は、シーンに応じて異なる音声出力調整処理を実行する情報処理装置(送信端末)の実施例である。
 図15は、本開示の実施例3の情報処理装置(送信端末)120の構成例を示す図である。
 図15に示すように、情報処理装置(送信端末)120は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106、さらに、シーン判別部121、第2出力音声調整部112を有する。
 なお、図15に示す構成は、情報処理装置(送信端末)120の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)120は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 この第3実施例の情報処理装置(送信端末)120の構成は、先に図4を参照して説明した第1実施例の情報処理装置(送信端末)100の構成に、シーン判別部121と、第2出力音声調整部112を追加した構成である。
 マイク(第1音源)101は、情報処理装置(送信端末)120に備えられたマイクであり、例えば情報処理装置(送信端末)120を利用してゲームアプリを実行中の配信ユーザ20の声を入力して第1出力音声調整部104に入力する。
 図15に示すように、マイク(第1音源)101に入力された配信ユーザ音声は第1出力音声調整部104に入力される。
 アプリ音声再生部(第2音源)102は、情報処理装置(送信端末)120において実行中のアプリの再生音、図に示すアプリ音声を生成して第1出力音声調整部104に出力する。
 例えば配信ユーザ20が、情報処理装置(送信端末)120において自動車レースのゲームアプリを実行している場合、アプリ音声再生部(第2音源)102は、ゲームアプリによって生成されるBGMや、ゲーム内で発生する様々な音声、例えば自動車のエンジン音や、観客の歓声や、クラッシュ時の衝突音など、様々な音声を再生音として生成して第1出力音声調整部104に出力する。
 コメント音声再生部(第3音源)103は、情報処理装置(送信端末)120から送信する画像や音声データを再生して視聴する視聴ユーザ30のコメントを再生する。
 視聴ユーザ30は、配信ユーザ20側の情報処理装置(送信端末)120から送信されるアプリ実行画面や音声データを、視聴ユーザ30側の情報処理装置(受信端末)200で受信、再生しながら、情報処理装置(受信端末)200に、応援メッセージなどのコメントをテキスト入力する。
 この入力コメントはネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)120に送信される。
 配信ユーザ20側の情報処理装置(送信端末)120のコメント音声再生部103は、情報処理装置(受信端末)200から受信したコメントを音声データに変換してコメント音声を生成し、生成したコメント音声(視聴ユーザコメント音声)を第1出力音声調整部104に出力する。
 なお、視聴ユーザ30は、情報処理装置(受信端末)200のマイクを介して応援メッセージなどのコメントを、直接音声入力してもよい。この場合、この入力音声コメントがネットワークを介して、配信ユーザ20側の情報処理装置(送信端末)100に送信される。
 この場合、配信ユーザ20側の情報処理装置(送信端末)120のコメント音声再生部103は、情報処理装置(受信端末)200から受信した音声コメントを、そのまま第1出力音声調整部104に出力する。
 次に、第1出力音声調整部104は、先に説明した実施例1と同様の各音源の出力音声の調整処理を実行する。
 すなわち、第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、各音源の音声データの出力調整処理を行う。
 第1出力音声調整部104は、例えば先に図5を参照して説明した調整処理を実行する。
 すなわち、第1出力音声調整部104は、上記3つの音源の出力音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。
 なお、先に図5を参照して説明したように、各音源の音声の調整に際しては、周波数領域全体について一律に低下、または上昇させる処理を行う。すなわち、各音源の周波数特性(=グラフの曲線形状)は維持したまま、各音源の最大出力値を予め規定した調整目標レベル(Lx)に設定するように調整する。
 この調整処理により、3つの異なる音源からの出力(音量)がバランスされ、1つの音源の音量が他に比較して大きすぎるといった問題が低減されることになる。
 第1出力音声調整部104は、図5に示す3つの音源に対応する(b)調整後(第1出力音声調整部からの出力)の音声データ特性を持つ3つの調整後音声データを生成し、この調整後音声データを第2出力音声調整部112に出力する。
 第2出力音声調整部112は、先に説明した実施例1にはない音声出力調整部である。
 第2出力音声調整部112は、配信ユーザ20が情報処理装置(送信端末)120において実行し、配信しているコンテンツのシーンに応じた音声出力調整処理を実行する。
 例えば自動車レースのゲームアプリを実行して配信している場合であれば、ゲーム等のアプリの開始シーン、アプリ実行中の様々なシーン、例えば、クラッシュなどの事故の場面、追い越すシーンなどのシーン、さらにゲーム等のアプリ終了シーンなど、これら様々なシーンに応じた音声出力調整処理を実行する。
 第2出力音声調整部112は、シーン判別部121から配信ユーザ20が情報処理装置(送信端末)120において実行し、配信中のシーン情報を入力し、入力したシーン情報に応じた出力音声調整処理を行う。
 シーン判別部121が判別するシーンは、上述したように、例えばゲーム等のアプリの開始シーン、アプリ実行中の様々なシーン、例えば、クラッシュなどの事故の場面、追い越すシーンなどのシーン、さらにゲーム等のアプリ終了シーンなどである。
 シーン判別部121は、情報処理装置(送信端末)120において起動され実行中のアプリのシーンを判別してシーン判別情報を生成して第2出力音声調整部112に入力する。
 シーン判別部121は、例えば、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取り、この読み取った属性情報に基づいて、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別してシーン判別情報を生成して第2出力音声調整部112に出力する。
 あるいは、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別して、シーン判別情報を生成して第2出力音声調整部112に出力する構成としてもよい。
 さらに、シーン判別部121は、例えば、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別して、シーン判別情報を生成して第2出力音声調整部112に出力する構成としてもよい。
 例えば、配信ユーザ20が、
 「これからゲームを開始するよ」
 「みんな応援してね」
 このような発話を行った場合、シーン判別部121は、この配信ユーザ20の発話内容を解析して、ゲームアプリの開始シーンであると判別することができる。
 また、配信ユーザ20が、
 「さあ、追い抜いて先頭に立つぞ」
 このような発話を行った場合、シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリにおいて追い抜きシーンであると判別することができる。
 また、配信ユーザ20が、
 「やった、優勝した。みんな応援ありがとう」
 このような発話を行った場合、シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリの終了シーンであると判別することができる。
 このように、シーン判別部121は、ユーザ発話内容を解析して、シーン判別を行い、その結果としてのシーン判別情報を第2出力音声調整部112に出力する構成としてもよい。
 さらに、シーン判別部121は、例えば、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別して、シーン判別情報を生成して第2出力音声調整部112に出力する構成としてもよい。
 例えば、視聴ユーザ30から、
 「応援するよ、がんばってね」
 このようなコメントを受信した場合、シーン判別部121は、この視聴ユーザ30のコメント内容を解析して、ゲームアプリの開始シーンであると判別することができる。
 また、例えば、視聴ユーザ30から、
 「優勝やったね」
 このようなコメントを受信した場合、シーン判別部121は、この視聴ユーザ30のコメント内容を解析して、ゲームの終了シーンであると判別することができる。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 図16以下を参照して、本実施例3の具体的処理例、すなわち、シーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 なお、以下では、配信ユーザ20側の情報処理装置(送信端末)120において自動車レースのゲームアプリを実行して配信している場合の様々なシーンに応じた処理について説明する。
 以下の複数のシーンの判別処理と、判別シーンに応じた音声出力調整処理の具体例について、順次、説明する。
 (1)シーン1=ゲーム開始直前シーン
 (2)シーン2=ゲーム実行中シーン
 (3)シーン3=クラッシュ発生シーン
 (4)シーン4=ゲーム終了シーン
 (5)シーン5=配信終了シーン
  [4-1.(処理例1)シーン1=ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 まず、処理例1として、ゲーム開始直前シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図16は、ゲーム開始シーンのシーン判別処理の具体例について説明する図である。
 前述したように、シーン判別部121は、例えば、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取り、この読み取った属性情報に基づいて、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 あるいは、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別する。あるいは、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別する。
 例えば、これらの様々な処理によってシーン判別処理を実行してシーン判別情報を生成し、第2出力音声調整部112に出力する。
 図16に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図16に示すように、情報処理装置(送信端末)120の表示部には、複数の自動車が[START]の文字が表示された位置に並んでいる画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームのアプリの開始シーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図16に示す例では、配信ユーザ20が、
 「ぼくは、一番手前の3番の車だよ、サーキットを3周してゴールだよ。みんな応援してね」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリの開始シーンであることを判別することができる。
 このように、シーン判別部121は、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取る。あるいは、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別する。あるいは、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別する。
 これらの少なくともいずれかの処理を行って、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図17、図18を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム開始直前シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図17は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム開始直前シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図17には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図17には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図17(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図17(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図17(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 なお、前述したように第1出力音声調整部104における音声出力調整を「第1調整」、第2出力音声調整部112における音声出力調整を「第2調整」と定義して説明する。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図17(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図17に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム開始直前シーン
 であると判別した場合の調整処理例である。
 図17(b)が、シーン=ゲーム開始直前シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図17(b)に示すように、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は行わない。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理のみ実行し、アプリ音声、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみに対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図17(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図18を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図18には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図18(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図17を参照して説明したように、シーン=ゲーム開始直前シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声のみ出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図18(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図18(a)の中段と下段に示すアプリ音声再生部(第2音源)102から入力するアプリ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図18(a)の中段と下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図18(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図18(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図18(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図18(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図18(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声が他の音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図17、図18を参照して説明した処理例、すなわち、
 シーン=ゲーム開始直前シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、ゲーム開始直前シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図17、図18を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-2.(処理例2)シーン2=ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例2として、ゲーム実行中シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図19は、ゲーム実行中のシーンのシーン判別処理の具体例について説明する図である。
 前述したように、シーン判別部121は、例えば、情報処理装置(送信端末)120で実行中のアプリの属性情報や、表示部に表示された画像、あるいは、マイクを介して入力する配信ユーザ20の発話内容、あるいは通信部を介して入力する視聴ユーザ30のコメント内容を解析してシーンを判別する。
 例えば、これらの様々な処理によってシーン判別処理を実行してシーン判別情報を生成し、第2出力音声調整部112に出力する。
 図19に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図19に示すように、情報処理装置(送信端末)120の表示部には、複数の自動車が走行している画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームのアプリが実行中のシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図19に示す例では、配信ユーザ20が、
 「よ~し、一気に加速するぞ」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリが実行中であり、加速や追い越しをしようとしているシーンであることを判別することができる。
 このように、シーン判別部121は、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図20、図21を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム実行中シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図20は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム実行中シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図20には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図20には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図20(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図20(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図20(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図20(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図20に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム実行中シーン
 であると判別した場合の調整処理例である。
 図20(b)が、シーン=ゲーム実行中シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図20(b)に示すように、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理を実行し、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図20(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図21を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図21には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図21(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図20を参照して説明したように、シーン=ゲーム実行中シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図21(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図21(a)の中段に示すアプリ音声のグラフにも、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図21(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図21(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図21(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図21(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図21(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図21(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図21(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図20、図21を参照して説明した処理例、すなわち、
 シーン=ゲーム実行中シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、ゲーム実行中シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図20、図21を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-3.(処理例3)シーン3=クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例3として、クラッシュ発生シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図22は、クラッシュ発生のシーンのシーン判別処理の具体例について説明する図である。
 図22に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図22に示すように、情報処理装置(送信端末)120の表示部には、自動車が衝突(クラッシュ)している画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースのゲーム実行中にクラッシュが発生したシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図22に示す例では、配信ユーザ20が、
 「うわ~」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリが実行中であり、何らかの事故(クラッシュ)が発生したシーンであることを判別することができる。
 このように、シーン判別部121は、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図23、図24を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=クラッシュ発生シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図23は、シーン判別部121が、シーン判別処理の結果として、
 シーン=クラッシュ発生シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図23には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図23には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図23(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図23(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図23(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図23(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図23に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=クラッシュ発生シーン
 であると判別した場合の調整処理例である。
 図23(b)が、シーン=クラッシュ発生シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図23(b)に示すように、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 ただし、このシーン3=クラッシュ発生シーンにおける配信ユーザ音声に対する第2調整処理の出力レベルの上昇度合は、先に図20を参照して説明したシーン2=ゲーム実行中シーンにおける上昇度合より抑制した設定としている。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理も全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 このシーン3=クラッシュ発生シーンにおけるアプリ音声に対する第2調整処理の出力レベルの上昇度合は、先に図20を参照して説明したシーン2=ゲーム実行中シーンにおける上昇度合とほぼ同様の設定としている。
 これは、クラッシュ時の衝突音を、より大きくするための調整処理である。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理を実行し、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図23(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図24を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図24には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図24(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図23を参照して説明したように、シーン=クラッシュ発生シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図24(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図24(a)の中段に示すアプリ音声のグラフにも、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図24(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図24(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図24(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図24(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図24(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図24(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図24(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。
 本処理例では、アプリ音声に含まれるクラッシュ音や、配信ユーザ20の叫び声が、より強調されることになり、クラッシュ発生時の緊迫度を視聴者に強く伝える効果をもたらすものとなる。
 なお、図23、図24を参照して説明した処理例、すなわち、
 シーン=クラッシュ発生シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、クラッシュ発生シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図23、図24を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-4.(処理例4)シーン4=ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例4として、ゲーム終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図25は、ゲーム終了のシーンのシーン判別処理の具体例について説明する図である。
 図25に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図25に示すように、情報処理装置(送信端末)120の表示部には、自動車がゴール(GOAL)ラインを通過している画像が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースのゲームが終了したシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図25に示す例では、配信ユーザ20が、
 「やった~、応援ありがとう」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリが実行中であり、何らかの事故(クラッシュ)が発生したシーンであることを判別することができる。
 また、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメントを解析してシーン判別を行うことも可能である。
 図25に示す例では、視聴ユーザ30が、
 「おめでとう、やったね」
 このようなコメントを送信している。
 シーン判別部121は、この視聴ユーザ30のコメントを解析して、自動車レースのゲームが終了したシーンであることを判別することができる。
 このように、シーン判別部121は、情報処理装置(送信端末)120で実行中のアプリの属性情報を情報処理装置(送信端末)120内のメモリから読み取る。あるいは、情報処理装置(送信端末)120の表示部に表示された画像を解析し、画像の解析結果に基づいてシーンを判別する。あるいは、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話内容を解析してシーンを判別する。あるいは、情報処理装置(送信端末)120の通信部を介して入力する視聴ユーザ30のコメントを解析してシーンを判別する。
 これらの少なくともいずれかの処理を行って、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図26、図27を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図26は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図26には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図26には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図26(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図26(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図26(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図26(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図26に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=ゲーム終了シーン
 であると判別した場合の調整処理例である。
 図26(b)が、シーン=ゲーム終了シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図26(b)に示すように、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は行わない。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理も全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 このように、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理を実行し、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図26(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図27を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図27には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図27(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図26を参照して説明したように、シーン=ゲーム終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図27(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図27(a)の中段に示すアプリ音声再生部(第2音源)102から入力するアプリ音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図27(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図27(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声の調整前データ(細かい点線データ)
 (q)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図27(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図27(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図27(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図27(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図27(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声と視聴ユーザのコメント音声が、アプリ音声に比較して、より聞き取りやすい音声として出力されることになる。
 本処理例では、ゲーム終了時の配信ユーザ20と視聴ユーザ30間の会話、交流をスムーズに行えるように、アプリ音声を控えめとした設定とした調整処理例である。
 なお、図26、図27を参照して説明した処理例、すなわち、
 シーン=ゲーム終了シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、ゲーム終了シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図26、図27を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
  [4-5.(処理例5)シーン5=配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例]
 次に、処理例5として、配信終了シーンのシーン判別処理と、判別シーンに応じた音声出力調整処理の具体例について説明する。
 図28は、配信終了シーンのシーン判別処理の具体例について説明する図である。
 図28に示す例では、シーン判別部121は、例えば、情報処理装置(送信端末)120の表示部に表示された画像を解析する。図28に示すように、情報処理装置(送信端末)120の表示部には、ゲームアプリの結果情報が表示されている。
 シーン判別部121は、例えばこのような画像の表示がなされていることに基づいて自動車レースゲームアプリの配信が終了するシーンであることを判別する。
 また、情報処理装置(送信端末)120のマイクを介して入力する配信ユーザ20の発話を解析してシーン判別を行うことも可能である。
 図28に示す例では、配信ユーザ20が、
 「じゃあ、またね~!応援ありがとう」
 このような発話を行っている。
 シーン判別部121は、この配信ユーザ20の発話内容を解析して、自動車レースのゲームアプリの配信が終了するシーンであることを判別することができる。
 このように、シーン判別部121は、現在、情報処理装置(送信端末)120において実行中のアプリのシーンを判別する。
 シーン判別部121は、シーン判別処理の結果であるシーン判別情報を第2出力音声調整部112に出力する。
 第2出力音声調整部112は、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーン判別部121から入力するシーン判別情報に応じて各音源からの出力音声、具体的には第1出力音声調整部104において調整された出力音声に対して、さらに出力調整処理を実行する。
 以下、図29、図30を参照して、
 シーン判別部121が、シーン判別処理の結果として、
 シーン=配信終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112、および音声合成部105が実行する処理の具体例について説明する。
 図29は、シーン判別部121が、シーン判別処理の結果として、
 シーン=配信終了シーン
 であると判別した場合の第1出力音声調整部104、第2出力音声調整部112が実行する各音源対応の出力調整処理の具体例について説明する。
 図29には、上から順に、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する調整処理例
 図29には、これら3つの音源の音声データ各々に対する以下の2つの出力調整部の出力音声調整処理の具体例を示している。
 (a)第1出力音声調整部104における調整処理
 (b)第2出力音声調整部112における調整処理
 図29(a),(b)に示す各グラフは、各音源の出力音の音声特性データを示している。横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データである。
 図29(a)に示す第1出力音声調整部104における調整処理は、先に図5を参照して説明した処理と同様の処理であり、3つの音源の出力音声に対する調整処理として、各音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行している。
 図29(a)の各グラフに示す点線データは第1出力音声調整部104における調整前の音声特性データ、すなわち各音源からの出力される音声の音声特性データであり、実線データは、第1出力音声調整部104における第1調整後の音声特性データである。
 第1出力音声調整部104における第1調整後の音声データが第2出力音声調整部112に入力される。すなわち、図29(a)の各グラフ中の第1調整後データ(実線データ)として示される音声特性を持つ3つの音源対応の第1調整後データが第2出力音声調整部112に入力され、シーンに応じた第2調整処理が実行される。
 図29に示す例は、シーン判別部121が、シーン判別処理の結果として、
 シーン=配信終了シーン
 であると判別した場合の調整処理例である。
 図29(b)が、シーン=配信終了シーンである場合に、第2出力音声調整部112が実行する3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対する調整処理の具体例である。
 図29(b)に示すように、シーン=配信終了シーンである場合、第2出力音声調整部112は、3つの音源からの出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して、以下の第2調整処理を実行する。
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理として、全体的に出力レベルを上昇させ、さらに周波特性(=グラフの曲線形状)をより強調するような出力調整を行う。すなわち、周波数に応じた出力レベルの差分を大きくするような調整処理を行う。
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理として、全体的に出力レベルを上昇させるような出力調整を行う。
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第2調整処理は行わない。
 このように、シーン=配信終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声に対する第2調整処理と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第2調整処理を実行し、視聴ユーザコメント音声に対する第2調整処理は実行せず、第1調整データをそのまま出力する。
 すなわち、シーン=配信終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して出力レベルアップ処理や、特定周波数成分強調処理を実行して、次の音声合成部105に出力する。
 なお、この図29(b)に示す第2出力音声調整部112における各音源対応の音声出力調整例は一例であり、この他の調整態様で調整を行う構成としてもよい。
 次に、図30を参照して、音声合成部105の処理の具体例について説明する。
 音声合成部105は、3つの音源の出力音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)に対して第1出力音声調整部104と第2出力音声調整部112が調整した調整音声データの合成処理(ミキシング処理)を実行する。
 図30には、以下の各処理例を示している。
 (a)第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (b)音声合成部の合成処理例
 図30(a)には、上段から、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対する第1出力音声調整部104と第2出力音声調整部112における調整処理例
 これらを示している。
 なお、先に図29を参照して説明したように、シーン=配信終了シーンである場合、第2出力音声調整部112は、マイク(第1音源)101から入力する配信ユーザ音声と、アプリ音声再生部(第2音源)102から入力するアプリ音声の出力レベルアップ処理や、特定周波数成分強調処理を実行している。
 図30(a)の最上段に示す配信ユーザ音声のグラフには、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)マイク(第1音源)101から入力する配信ユーザ音声の調整前データ(細かい点線データ)
 (q)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)マイク(第1音源)101から入力する配信ユーザ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図30(a)の中段に示すアプリ音声のグラフにも、以下の3つの音声特性(周波数-レベル特性)データを示している。
 (p)アプリ音声再生部(第2音源)102から入力するアプリ音声の調整前データ(細かい点線データ)
 (q)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104における第1調整後データ(荒い点線データ)
 (r)アプリ音声再生部(第2音源)102から入力するアプリ音声に対する第1出力音声調整部104と第2出力音声調整部112における2つの調整を実行した第2調整後データ(実線データ)
 音声合成部105には、上記(r)のデータ、すなわちグラフ中に実線で示す音声特性を持つ音声データが入力される。
 すなわち、アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ(実線データ)が入力される。
 図30(a)の下段に示すコメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声については、第1出力音声調整部104のみで調整処理が実行されており、第2出力音声調整部112では調整処理がなされない。
 従って、音声合成部105には、図30(a)の下段の各グラフ内に第1調整後データとして実線で示す音声特性を持つ音声データが入力される。
 図30(b)には、音声合成部105が実行する音声合成処理(ミキシング処理)の具体例を示している。
 図30(b)に示すグラフには、音声合成部105による3音源の調整後音声データの合成(ミキシング)処理によって生成される1つの合成音声に含まれる各音源データのデータ特性成分(周波数-レベル特性)を示している。
 図30(b)に示すグラフ内に重なって示される3つの曲線は、それぞれ図30(a)のグラフに実線で示す調整後音声特性に相当する。
 すなわち、
 (1)マイク(第1音源)101から入力する配信ユーザ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理が実行された第2調整後データ
 (2)アプリ音声再生部(第2音源)102から入力するアプリ音声に対して第1出力音声調整部104と第2出力音声調整部112において2つの調整処理がなされた第2調整後データ
 (3)コメント音声再生部(第3音源)103から入力する視聴ユーザコメント音声に対して第1出力音声調整部104のみにおいて1つの調整処理がなされた第1調整後データ
 これらを示している。
 音声合成部105は、このような各音源の音声成分データを持つ音声合成データを生成して、通信部106を介して配信する。
 視聴ユーザ30側の情報処理装置(受信端末)200は、図30(b)に示す各音源対応の音声成分を持つ合成音を再生することになる。
 この場合、配信ユーザの音声とアプリ音声が、視聴者ユーザコメント音声に比較して、より聞き取りやすい音声として出力されることになる。
 なお、図29、図30を参照して説明した処理例、すなわち、
 シーン=配信終了シーン
 このシーンにおける第2出力音声調整部112の各音源音声の出力調整例は一例であり、配信終了シーンにおいて、上記調整例以外の態様で調整を行う構成としてもよい。
 また、第1出力音声調整部104における各音源対応の音声の出力調整処理についても、図29、図30を参照して説明した処理例では、3つの音源各々の出力レベルの最大値を1つの同じ調整目標レベル(Lx)に設定する調整を行う例について説明したが、第1出力音声調整部104についても、この調整例に限らず、先に図7、図8を参照して説明した調整処理や、その他の調整処理を行う構成としてもよい。
 以上、説明したように、本開示の情報処理装置(送信端末)は、配信コンテンツの配信シーンに応じた音声出力調整を実行し、シーンに応じた最適な合成音声を生成して配信する処理を実現する。
  [5.(実施例4)実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)の構成と処理について]
 次に、本開示の実施例4として、上述した実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)の構成と処理について説明する。
 先に説明した実施例1~実施例3は、以下の処理を実行する実施例である。
 (実施例1)図4を参照して説明したように第1出力音声調整部104において、複数音源各々の出力音声を調整して、調整後の各音源出力音声を合成して配信する。
 (実施例2)図9を参照して説明したように、第1出力音声調整部104において、複数音源各々の出力音声を調整し、さらに第2出力音声調整部104において、配信コンテンツの種類に応じた音声出力調整を実行し、これらの2段階の調整後の各音源出力音声を合成して配信する。
 (実施例3)図15を参照して説明したように、第1出力音声調整部104において、複数音源各々の出力音声を調整し、さらに第2出力音声調整部104において、配信コンテンツの配信シーンに応じた音声出力調整を実行し、これらの2段階の調整後の各音源出力音声を合成して配信する。
 以下に説明する実施例4は、上述した実施例1~実施例3の処理をすべて実行可能な構成を有する情報処理装置(送信端末)である。
 図31は、本開示の実施例4の情報処理装置(送信端末)130の構成例を示す図である。
 図31に示すように、情報処理装置(送信端末)130は、マイク(第1音源)101、アプリ音声再生部(第2音源)102、コメント音声再生部(第3音源)103、第1出力音声調整部104、音声合成部105、通信部106、さらに、コンテンツ種類判別部111、第2出力音声調整部112、シーン判別部121を有する。
 これらの構成部各々は、先に実施例1~3において説明したと同様の構成である。
 なお、図31に示す構成は、情報処理装置(送信端末)130の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(送信端末)130は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 この第4実施例の情報処理装置(送信端末)130の構成は、先に図4を参照して説明した第1実施例の情報処理装置(送信端末)100、および、
 図9を参照して説明した第2実施例の情報処理装置(送信端末)110、および、
 図15を参照して説明した第3実施例の情報処理装置(送信端末)120、
 これらの各実施例の装置の構成をすべて含む情報処理装置である。
 この実施例4の情報処理装置(送信端末)130は、以下の各処理を実行することが可能な構成を持つ。
 (a)実施例1において説明した第1出力音声調整部104における音源各々の出力音声の調整処理、
 (b)実施例2において説明した第2出力音声調整部112における配信コンテンツの種類に応じた音源各々の出力音声の調整処理、
 (c)実施例3において説明した第2出力音声調整部112における配信シーンに応じた音源各々の出力音声の調整処理、
 図31に示す実施例4の情報処理装置(送信端末)130は、これらの処理を併せて実行、あるいは選択的に実行することが可能な構成を持つ。
 すなわち、第1出力音声調整部104は、以下の3つの音声データを入力する。
 (1)マイク(第1音源)101から配信ユーザ音声、
 (2)アプリ音声再生部(第2音源)102からアプリ音声、
 (3)コメント音声再生部(第3音源)103から視聴ユーザコメント音声、
 第1出力音声調整部104は、これら3つの音源からの3つの音声データを入力して、例えば先に図5を参照して説明したように、3つの音源の出力音声の最大出力を、予め規定した調整目標レベル(Lx)に設定する調整処理を実行する。あるいは図7、図8を参照して説明した調整処理などを実行する。
 この処理は、先に図4~図8を参照して説明した実施例1の処理に対応する処理である。
 第2出力音声調整部112は、コンテンツ種類判別部111から配信ユーザ20が情報処理装置(送信端末)110において実行、配信しているコンテンツの種類情報を入力し、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、コンテンツ種類に応じた出力音声調整処理を行う。
 この処理は、先に図9~図14を参照して説明した実施例2の処理に対応する処理である。
 さらに、第2出力音声調整部112は、シーン判別部121から配信ユーザ20が情報処理装置(送信端末)110において実行、配信しているアプリのシーン情報を入力し、第1出力音声調整部104が調整した3つの音源の調整音声の各々に対して、シーンに応じた出力音声調整処理を行う。
 この処理は、先に図15~図30を参照して説明した実施例3の処理に対応する処理である。
 このように、図31に示す情報処理装置(送信端末)130は、上記の実施例1~3の処理を併せて実行、あるいは選択的に実行することが可能な構成を持つ。
  [6.(実施例5)本開示の実施例5の情報処理装置(受信端末)の構成と処理について]
 次に、本開示の実施例5として、配信コンテンツを受信する側の情報処理装置(受信端末)200の構成と処理について説明する。
 図32は、本開示の実施例5の情報処理装置(受信端末)200の構成例を示す図である。
 図32に示すように、情報処理装置(受信端末)200は、通信部201、出力音声調整部202、音声出力部203、マイク204、音声出力機器特性解析部205、音声出力環境解析部206を有する。
 なお、図32に示す構成は、情報処理装置(受信端末)200の一部構成であり、主に本開示の音声出力調整処理に適用する構成を示すブロック図である。情報処理装置(受信端末)200は、図に示す構成の他、表示部、入力部、制御部、記憶部など、例えば一般的なスマホ(スマートフォン)と同様の構成要素を有している。
 通信部201は、コンテンツ配信を実行する情報処理装置(送信端末)の送信データを受信する。
 また、情報処理装置(受信端末)200側の視聴ユーザ30が入力したコメントの送信処理なども実行する。
 出力音声調整部202は、情報処理装置(送信端末)の送信データに含まれる音声データの出力調整処理を実行する。
 この音声出力調整処理の詳細については後段で説明する。
 音声出力部203は、スピーカ等によって構成される音声出力部であり、出力音声調整部202において調整された音声の出力処理を行う。
 マイク204は、視聴ユーザ30の声や、周囲のノイズなどの環境音を取得し、音声出力環境解析部206に入力する。
 音声出力機器特性解析部205は、音声出力部203を構成するスピーカなどの音声出力機器の機器特性を解析する。例えばスピーカ出力音の周波数特性などを解析する。解析情報は出力音声調整部202に入力される。
 音声出力環境解析部206は、マイク204から視聴ユーザ30の声や、周囲のノイズなどの環境音を入力し、情報処理装置(送信端末)から配信されるコンテンツの視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報を解析する。解析情報は出力音声調整部202に入力される。
 次に、図33以下を参照して出力音声調整部202が実行する出力音声調整処理の具体例について説明する。
 出力音声調整部202は、以下の各情報を入力する。
 (1)音声出力機器特性解析部205から、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性
 (2)音声出力環境解析部206から、マイク204の入力音に基づく音声出力環境情報
 音声出力機器特性解析部205から入力するスピーカなどの音声出力機器対応の音声出力機器特性とは、例えばスピーカ出力音の周波数特性などの特性である。
 また、音声出力環境解析部206から入力する音声出力環境情報とは、視聴ユーザ30の声や、周囲のノイズなどの環境音などによって解析される情報であり、コンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。
 出力音声調整部202は、これらの入力情報に基づいて、通信部201を介して入力する音声、すなわち情報処理装置(送信端末)が送信する配信コンテンツに含まれる音声の出力調整処理を実行する。
 図33は、出力音声調整部202が、音声出力機器特性解析部205から、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性を入力して実行する出力音声調整処理の具体例を説明する図である。
 図33左下の「(a)受信音声周波数特性」は、通信部201が受信する音声データの特性を示すグラフである。すなわち、配信ユーザ20側の情報処理装置(送信端末)100が配信するコンテンツの音声データの特性である。
 横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データを示している。
 なお、情報処理装置(受信端末)200の通信部201が受信する音声データは、配信ユーザ20側の情報処理装置(送信端末)100の複数の音源対応の音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)の合成音声データであり、先に説明した実施例1~4のいずれかの処理によって調整された音声データである。
 図33に示すように、出力音声調整部202は、図33左下の「(a)受信音声周波数特性」に示す特性を有する音声データを、通信部201を介して入力する。
 さらに、出力音声調整部202は、音声出力機器特性解析部205から、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性を入力する。
 音声出力機器特性解析部205は、音声出力部203の特性を解析する。
 音声出力機器特性解析部205が解析した音声出力部203の特性の一例が、図33上段に示す「(b)音声出力機器特性」である。
 図33上段に示す「(b)音声出力機器特性」は、高周波領域の出力が他の周波数領域に比較して相対的に弱いという特徴を持つ。
 出力音声調整部202は、音声出力機器特性解析部205が解析した音声出力部203の特性「(b)音声出力機器特性」に基づいて、通信部201を介して送信端末から受信した音声データの出力調整を実行する。
 例えば、通信部201を介して送信端末から受信した音声データの特性である「(a)受信音声周波数特性」を調整し、図33右下の「(c)出力音声周波数特性」を持つ音声データとする調整処理を実行する。
 図33右下の「(c)出力音声周波数特性」には、調整前データ(点線)と、調整後データ(実線)を示している。
 調整後データ(実線)は、調整前データ(点線)の高周波領域の出力レベルを上昇させた音声特性を有するデータであり、出力音声調整部202は、送信端末から受信した音声データの高周波領域の出力レベルを上昇(ゲインアップ)させる音声調整処理を実行したことを示している。
 出力音声調整部202によるこのような出力音声調整処理によって、音声出力部(スピーカ)203を介して出力される音声は、元の受信データ((a)受信音声周波数特性)に比較して高周波領域が聞き取りやすい音声データとして出力されることになる。
 次に、図34を参照して、出力音声調整部202が、音声出力環境解析部206から、マイク204の入力音に基づく音声出力環境情報を入力して実行する出力音声調整処理の具体例について説明する。
 出力音声調整部202は、音声出力環境解析部206から視聴ユーザ30の声や、周囲のノイズなどの環境音などの解析情報である音声出力環境情報を入力する。例えばコンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。
 出力音声調整部202は、この入力情報に基づいて、通信部201を介して入力する音声、すなわち情報処理装置(送信端末)が送信する配信コンテンツに含まれる音声の出力調整処理を実行する。
 図34左上の「(a)受信音声周波数特性」は、通信部201が受信する音声データの特性を示すグラフである。すなわち、配信ユーザ20側の情報処理装置(送信端末)100が配信するコンテンツの音声データの特性である。
 横軸に周波数(Hz)、縦軸に出力レベル(dB)を設定した周波数-レベル対応データを示している。
 なお、情報処理装置(受信端末)200の通信部201が受信する音声データは、配信ユーザ20側の情報処理装置(送信端末)100の複数の音源対応の音声(配信ユーザ音声、アプリ音声、視聴ユーザコメント音声)の合成音声データであり、先に説明した実施例1~4のいずれかの処理によって調整された音声データである。
 図34に示すように、出力音声調整部202は、図34左上の「(a)受信音声周波数特性」に示す特性を有する音声データを、通信部201を介して入力する。
 さらに、出力音声調整部202は、音声出力環境解析部206から、マイク204の入力音に基づいて解析される音声出力環境情報を入力する。
 音声出力環境解析部206は、マイク204の入力音に基づいて、視聴ユーザ30の声や、周囲のノイズなどの環境音など、環境音の解析処理を実行する。例えばコンテンツ視聴環境のノイズ音状態、例えば騒がしい環境であるか、静かな環境であるか等の環境情報である。
 音声出力環境解析部206が解析した環境ノイズ特性の一例が、図34下段に示す「(b)環境ノイズ特性」である。
 図34下段に示す「(b)環境ノイズ特性」は、低周波領域のノイズが他の周波数領域に比較して相対的に強いという特徴を持つ。
 これは、例えば風が吹いている状態などによって発生する。
 出力音声調整部202は、音声出力環境解析部206が解析した「(b)環境ノイズ特性」に基づいて、通信部201を介して送信端末から受信した音声データの出力調整を実行する。
 例えば、通信部201を介して送信端末から受信した音声データの特性である「(a)受信音声周波数特性」を調整し、図34右上の「(c)出力音声周波数特性」を持つ音声データとする調整処理を実行する。
 図34右上の「(c)出力音声周波数特性」には、調整前データ(点線)と、調整後データ(実線)を示している。
 調整後データ(実線)は、調整前データ(点線)の低周波領域の出力レベルを上昇させた音声特性を有するデータであり、出力音声調整部202は、送信端末から受信した音声データの低周波領域の出力レベルを上昇(ゲインアップ)させる音声調整処理を実行したことを示している。
 出力音声調整部202による、この出力音声調整処理によって、音声出力部(スピーカ)203を介して出力される音声は、風が吹いている環境でも低周波領域が聞き取りやすい音声データとして出力されることになる。
 なお、図33、図34では、出力音声調整部202による出力音声調整処理例として、以下の2種類の出力音声調整処理を個別に説明した。
 (1)音声出力機器特性解析部205から入力する、音声出力部203を構成するスピーカなどの音声出力機器対応の音声出力機器特性に基づく出力音声調整処理
 (2)音声出力環境解析部206から入力する、マイク204の入力音に基づく音声出力環境情報に基づく出力音声調整処理
 出力音声調整部202は、これら2つの処理は併せて実行することが可能である。
 図35は、図33、図34を参照して説明した2つの処理を併せて実行する処理例を説明する図である。
 図35の上段には、以下の各音声特性図を示している。
 (A1)受信音声周波数特性
 (A2)第1調整後音声特性(=音声出力機器特性解析部205から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性)
 (A3)第2調整後音声特性(=音声出力環境解析部206から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性)
 また、図35の下段には、以下の2つの特性図を示している。
 (B1)音声出力機器特性解析部205から入力する音声出力機器特性
 (B2)音声出力環境解析部206から入力する環境ノイズ特性
 出力音声調整部202は、
 「(B1)音声出力機器特性解析部205から入力する音声出力機器特性」
 に基づいて、
 「(A1)受信音声周波数特性」の調整処理を実行して、
 「(A2)第1調整後音声特性(=音声出力機器特性解析部205から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性)」を生成する。
 さらに、
 「(B2)音声出力環境解析部206から入力する環境ノイズ特性」
 に基づいて、
 「(A2)第1調整後音声特性(=音声出力機器特性解析部205から入力する音声出力機器特性に基づく出力音声調整処理後の音声データの特性)」
をさらに調整して、
 「(A3)第2調整後音声特性(=音声出力環境解析部206から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性)」を生成する。
 この2段階の調整後のデータ、すなわち、
 「(A3)第2調整後音声特性(=音声出力環境解析部206から入力する環境ノイズ特性に基づく出力音声調整処理後の音声データの特性)」を持つ音声データが音声出力部(スピーカ)203を介して出力される。
 音声出力部(スピーカ)203を介して出力される音声データは、元の受信データ((A1)受信音声周波数特性)に比較して高周波領域が聞き取りやすく、また風が吹いている環境でも低周波領域が聞き取りやすい音声データとして出力されることになる。
 このように、本開示の実施例5である配信コンテンツを受信する側の情報処理装置(受信端末)200は、スピーカ等の音声出力機器の機器特性や、環境ノイズ特性に基づく出力音声調整処理を実行して調整後の音声をスピーカ等の音声出力機器を介して出力する。
 この処理により、聞き取りやすい音声特性(周波数特性)を持つ音声データの出力が実現される。
  [7.情報処理装置のハードウェア構成例について]
 次に、図36を参照して本開示の情報処理装置、すなわち送信端末や受信端末として利用され情報処理装置のハードウェア構成例について説明する。
 図36は、本開示の情報処理装置、すなわち送信端末や受信端末として利用される情報処理装置のハードウェア構成の一例を示す図である。
 図36に示すハードウェアの構成要素について説明する。
 CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
 CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部306、表示部やスピーカなどに対するデータ出力を実行する出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。
 入出力インタフェース305に接続されている記憶部308は、例えばフラッシュメモリ、ハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整部と、
 前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
 前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
 前記第1出力音声調整部は、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置。
 (2) 前記第1出力音声調整部は、
 各音源の出力音声の周波数対応音量レベルの最大値を、前記複数音源に共通の1つの目標レベルに一致させる出力音声調整処理を実行する(1)に記載の情報処理装置。
 (3) 前記第1出力音声調整部は、
 各音源の出力音声の周波数対応音量レベルの最大値を、各音源固有の目標レベルに一致させる出力音声調整処理を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記第1出力音声調整部は、
 各音源の出力音声の周波数対応の音量レベル差分を減少させる出力音声調整処理を実行する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記複数音源の出力音声は、
 (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
 (b)前記情報処理装置のマイクを介して入力するユーザ音声、
 (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
 上記(a)~(c)の少なくとも2つ以上の音声を含む(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記情報処理装置は、さらに、
 前記通信部を介して出力するコンテンツの種類、またはコンテンツのシーンに応じて各音源の出力音声の出力音声調整処理を実行する第2出力音声調整部を有する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツの種類に応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する(6)に記載の情報処理装置。
 (8) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツの種類がゲームコンテンツであり、
 前記複数音源の出力音声として、前記情報処理装置のマイクを介して入力するユーザ音声が含まれる場合、前記ユーザ音声を強調する出力音声調整処理を実行する(6)または(7)に記載の情報処理装置。
 (9) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツの種類が音楽コンテンツである場合、
 前記音楽コンテンツの音楽再生音を強調する出力音声調整処理を実行する(6)~(8)いずれかに記載の情報処理装置。
 (10) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツのシーンに応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する(6)~(9)いずれかに記載の情報処理装置。
 (11) 前記第2出力音声調整部は、
 前記通信部を介して出力するコンテンツのシーンに応じた出力音声調整処理の実行対象として、
 (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
 (b)前記情報処理装置のマイクを介して入力するユーザ音声、
 (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
 上記(a)~(c)の少なくとも1つ以上の音声を選択し、選択音声の出力音声調整処理を実行する(6)~(10)いずれかに記載の情報処理装置。
 (12) 前記情報処理装置は、
 前記通信部を介して出力するコンテンツのシーンを判別するシーン判別部を有し、
 前記シーン判別部は、
 前記情報処理装置で実行中のアプリの属性情報、または表示部の表示情報、または、マイクを介して入力するユーザの発話内容、または、前記コンテンツの視聴ユーザのコメントを解析してシーンを判別し、
 前記第2出力音声調整部は、
 前記シーン判別部による判別シーンに応じた出力音声調整処理を実行する(6)~(11)いずれかに記載の情報処理装置。
 (13) コンテンツを受信する通信部と、
 前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
 前記出力音声調整部は、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置。
 (14) 前記出力音声調整部は、
 前記音声出力機器特性情報として、音声出力部を構成する音声出力機器の周波数対応出力レベルの解析情報を生成し、
 音声出力機器の出力レベルが相対的に低い周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する(13)に記載の情報処理装置。
 (15) 前記出力音声調整部は、
 音声出力環境情報として、マイクを介して入力するノイズの周波数解析情報を生成し、
 ノイズに多く含まれる周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する(13)または(14)に記載の情報処理装置。
 (16) 情報処理装置において実行する情報処理方法であり、
 第1出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整ステップと、
 音声合成部が、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
 通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法。
 (17) 情報処理装置において実行する情報処理方法であり、
 通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
 出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法。
 (18) 情報処理装置において情報処理を実行させるプログラムであり、
 第1出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第1出力音声調整ステップと、
 音声合成部に、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
 通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
 前記第1出力音声調整ステップにおいて、
 各音源の出力音声について周波数対応の音量レベルを解析し、
 各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラム。
 (19) 情報処理装置において情報処理を実行させるプログラムであり、
 通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
 出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
 前記出力音声調整ステップにおいて、
 音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラム。
 明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
 具体的には、例えば、複数音源各々の出力音声の調整処理を実行する第1出力音声調整部と、第1出力音声調整部において調整された音源対応出力音声を合成した合成音声データを含むコンテンツを出力する。第1出力音声調整部は、各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する。さらに第2出力音声調整部は、コンテンツの種類、またはシーンに応じて出力音声調整処理を実行する。
 これらの処理により、情報処理装置からの配信コンテンツに含まれる複数音源の音声を調整し、配信コンテンツを受信、再生する受信端末において各音源の音声を聞きやすくする装置、方法が実現される。
  10 情報処理システム
  20 配信ユーザ
  30 視聴ユーザ
 100,110,120,130 情報処理装置(送信端末)
 101 マイク(第1音源)
 102 アプリ音声再生部(第2音源)
 103 コメント音声再生部(第3音源)
 104 第1出力音声調整部
 105 音声合成部
 106 通信部
 111 コンテンツ種類判別部
 112 第2出力音声調整部
 121 シーン判別部
 200 情報処理装置(受信端末)
 201 通信部
 202 出力音声調整部
 203 音声出力部
 204 マイク
 205 音声出力機器特性解析部
 206 音声出力環境解析部
 301 CPU
 302 ROM
 303 RAM
 304 バス
 305 入出力インタフェース
 306 入力部
 307 出力部
 308 記憶部
 309 通信部
 310 ドライブ
 311 リムーバブルメディア

Claims (19)

  1.  複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整部と、
     前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成部と、
     前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信部を有し、
     前記第1出力音声調整部は、
     各音源の出力音声について周波数対応の音量レベルを解析し、
     各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理装置。
  2.  前記第1出力音声調整部は、
     各音源の出力音声の周波数対応音量レベルの最大値を、前記複数音源に共通の1つの目標レベルに一致させる出力音声調整処理を実行する請求項1に記載の情報処理装置。
  3.  前記第1出力音声調整部は、
     各音源の出力音声の周波数対応音量レベルの最大値を、各音源固有の目標レベルに一致させる出力音声調整処理を実行する請求項1に記載の情報処理装置。
  4.  前記第1出力音声調整部は、
     各音源の出力音声の周波数対応の音量レベル差分を減少させる出力音声調整処理を実行する請求項1に記載の情報処理装置。
  5.  前記複数音源の出力音声は、
     (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
     (b)前記情報処理装置のマイクを介して入力するユーザ音声、
     (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
     上記(a)~(c)の少なくとも2つ以上の音声を含む請求項1に記載の情報処理装置。
  6.  前記情報処理装置は、さらに、
     前記通信部を介して出力するコンテンツの種類、またはコンテンツのシーンに応じて各音源の出力音声の出力音声調整処理を実行する第2出力音声調整部を有する請求項1に記載の情報処理装置。
  7.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツの種類に応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する請求項6に記載の情報処理装置。
  8.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツの種類がゲームコンテンツであり、
     前記複数音源の出力音声として、前記情報処理装置のマイクを介して入力するユーザ音声が含まれる場合、前記ユーザ音声を強調する出力音声調整処理を実行する請求項6に記載の情報処理装置。
  9.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツの種類が音楽コンテンツである場合、
     前記音楽コンテンツの音楽再生音を強調する出力音声調整処理を実行する請求項6に記載の情報処理装置。
  10.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツのシーンに応じて出力音声調整処理の実行対象とする音源を選択し、選択した音源の出力音声に対してのみ出力音声調整処理を実行する請求項6に記載の情報処理装置。
  11.  前記第2出力音声調整部は、
     前記通信部を介して出力するコンテンツのシーンに応じた出力音声調整処理の実行対象として、
     (a)前記通信部を介して出力するコンテンツの実行プログラムであるアプリケーションが生成するアプリ音声、
     (b)前記情報処理装置のマイクを介して入力するユーザ音声、
     (c)前記通信部を介した出力コンテンツを受信して視聴する視聴ユーザ側の受信端末からのコメントに基づいて生成される視聴ユーザコメント音声、
     上記(a)~(c)の少なくとも1つ以上の音声を選択し、選択音声の出力音声調整処理を実行する請求項6に記載の情報処理装置。
  12.  前記情報処理装置は、
     前記通信部を介して出力するコンテンツのシーンを判別するシーン判別部を有し、
     前記シーン判別部は、
     前記情報処理装置で実行中のアプリの属性情報、または表示部の表示情報、または、マイクを介して入力するユーザの発話内容、または、前記コンテンツの視聴ユーザのコメントを解析してシーンを判別し、
     前記第2出力音声調整部は、
     前記シーン判別部による判別シーンに応じた出力音声調整処理を実行する請求項6に記載の情報処理装置。
  13.  コンテンツを受信する通信部と、
     前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整部を有し、
     前記出力音声調整部は、
     音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理装置。
  14.  前記出力音声調整部は、
     前記音声出力機器特性情報として、音声出力部を構成する音声出力機器の周波数対応出力レベルの解析情報を生成し、
     音声出力機器の出力レベルが相対的に低い周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する請求項13に記載の情報処理装置。
  15.  前記出力音声調整部は、
     音声出力環境情報として、マイクを介して入力するノイズの周波数解析情報を生成し、
     ノイズに多く含まれる周波数領域について、受信コンテンツの音声出力レベルを上昇させる出力音声調整処理を実行する請求項13に記載の情報処理装置。
  16.  情報処理装置において実行する情報処理方法であり、
     第1出力音声調整部が、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行する第1出力音声調整ステップと、
     音声合成部が、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成する音声合成ステップと、
     通信部が、前記音声合成部が生成した合成音声データを含むコンテンツを出力する通信ステップを実行し、
     前記第1出力音声調整ステップにおいて、
     各音源の出力音声について周波数対応の音量レベルを解析し、
     各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行する情報処理方法。
  17.  情報処理装置において実行する情報処理方法であり、
     通信部が、ネットワークを介してコンテンツを受信する通信ステップと、
     出力音声調整部が、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行する出力音声調整ステップを実行し、
     前記出力音声調整ステップにおいて、
     音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行する情報処理方法。
  18.  情報処理装置において情報処理を実行させるプログラムであり、
     第1出力音声調整部に、複数音源各々の出力音声を入力し、各音源の出力音声の調整処理を実行させる第1出力音声調整ステップと、
     音声合成部に、前記第1出力音声調整部において調整された音源対応出力音声を合成して合成音声データを生成させる音声合成ステップと、
     通信部に、前記音声合成部が生成した合成音声データを含むコンテンツを出力させる通信ステップを実行させ、
     前記第1出力音声調整ステップにおいて、
     各音源の出力音声について周波数対応の音量レベルを解析し、
     各音源の出力音声の周波数対応音量レベルの最大値を目標レベルに一致させる出力音声調整処理を実行させるプログラム。
  19.  情報処理装置において情報処理を実行させるプログラムであり、
     通信部に、ネットワークを介してコンテンツを受信させる通信ステップと、
     出力音声調整部に、前記通信部による受信コンテンツの音声データを入力して出力音声調整処理を実行させる出力音声調整ステップを実行させ、
     前記出力音声調整ステップにおいて、
     音声出力部を構成する音声出力機器特性情報、または、音声出力環境情報の少なくともいずれかの情報に基づく出力音声調整処理を実行させるプログラム。
PCT/JP2022/013429 2021-08-25 2022-03-23 情報処理装置、および情報処理方法、並びにプログラム WO2023026555A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021136869 2021-08-25
JP2021-136869 2021-08-25

Publications (1)

Publication Number Publication Date
WO2023026555A1 true WO2023026555A1 (ja) 2023-03-02

Family

ID=85322683

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013429 WO2023026555A1 (ja) 2021-08-25 2022-03-23 情報処理装置、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023026555A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4826057B1 (ja) * 1968-06-22 1973-08-04
JP2002258842A (ja) * 2000-12-27 2002-09-11 Sony Computer Entertainment Inc 音声制御装置、音声制御方法、音声制御プログラム、音声制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体、音声制御プログラムを実行するプログラム実行装置
JP2003243952A (ja) * 2002-02-20 2003-08-29 Tdk Corp デジタルオーディオシステム、自動音量調整要素生成方法、自動音量調整方法、自動音量調整要素生成プログラム、自動音量調整プログラム、自動音量調整要素生成プログラムが記録された記録媒体及び自動音量調整プログラムが記録された記録媒体
JP2008228184A (ja) * 2007-03-15 2008-09-25 Funai Electric Co Ltd 音声出力装置
JP2012054863A (ja) * 2010-09-03 2012-03-15 Mitsubishi Electric Corp 音響再生装置
WO2018096954A1 (ja) 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2019180073A (ja) * 2018-03-30 2019-10-17 パナソニックIpマネジメント株式会社 音響システム、音響再生装置、および音響再生方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4826057B1 (ja) * 1968-06-22 1973-08-04
JP2002258842A (ja) * 2000-12-27 2002-09-11 Sony Computer Entertainment Inc 音声制御装置、音声制御方法、音声制御プログラム、音声制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体、音声制御プログラムを実行するプログラム実行装置
JP2003243952A (ja) * 2002-02-20 2003-08-29 Tdk Corp デジタルオーディオシステム、自動音量調整要素生成方法、自動音量調整方法、自動音量調整要素生成プログラム、自動音量調整プログラム、自動音量調整要素生成プログラムが記録された記録媒体及び自動音量調整プログラムが記録された記録媒体
JP2008228184A (ja) * 2007-03-15 2008-09-25 Funai Electric Co Ltd 音声出力装置
JP2012054863A (ja) * 2010-09-03 2012-03-15 Mitsubishi Electric Corp 音響再生装置
WO2018096954A1 (ja) 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2019180073A (ja) * 2018-03-30 2019-10-17 パナソニックIpマネジメント株式会社 音響システム、音響再生装置、および音響再生方法

Similar Documents

Publication Publication Date Title
KR102268933B1 (ko) 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
CN1972524B (zh) 再现音乐文件的方法和设备
US8532306B2 (en) Method and an apparatus of decoding an audio signal
JP4327886B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP5577787B2 (ja) 信号処理装置
WO2006008865A1 (ja) 音響特性調整装置
US20210247953A1 (en) System and Method for Manipulating and Transmitting Live Media
WO2019133942A1 (en) Voice-control soundbar loudspeaker system with dedicated dsp settings for voice assistant output signal and mode switching method
WO2023026555A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20120033835A1 (en) System and method for modifying an audio signal
CN114598917B (zh) 显示设备及音频处理方法
JP3554649B2 (ja) 音声処理装置とその音量レベル調整方法
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
CN112073890B (zh) 音频数据处理方法、装置和终端设备
CN115002649A (zh) 声场均衡调整方法、装置、设备和计算机可读存储介质
CN112995854A (zh) 音频处理方法、装置及电子设备
US20030071839A1 (en) Method of presenting adjustable multi-channel sound field when multimedia software is playing audio data
JP7359896B1 (ja) 音処理装置及びカラオケシステム
JPH1146394A (ja) 情報処理装置および方法、記録媒体、並びに伝送媒体
US11039263B2 (en) Wide effect sound producing method
WO2022215187A1 (ja) 音声再生システム、音声再生方法およびコンピュータプログラム
JP6819236B2 (ja) 音処理装置、音処理方法、及びプログラム
US10615765B2 (en) Sound adjustment method and system
JP6834398B2 (ja) 音処理装置、音処理方法、及びプログラム
WO2018092286A1 (ja) 音処理装置、音処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22860853

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022860853

Country of ref document: EP

Effective date: 20240305

NENP Non-entry into the national phase

Ref country code: DE