WO2023243375A1 - 情報端末、情報処理方法、プログラム、および情報処理装置 - Google Patents

情報端末、情報処理方法、プログラム、および情報処理装置 Download PDF

Info

Publication number
WO2023243375A1
WO2023243375A1 PCT/JP2023/019859 JP2023019859W WO2023243375A1 WO 2023243375 A1 WO2023243375 A1 WO 2023243375A1 JP 2023019859 W JP2023019859 W JP 2023019859W WO 2023243375 A1 WO2023243375 A1 WO 2023243375A1
Authority
WO
WIPO (PCT)
Prior art keywords
remote
information
audio
data
encoded
Prior art date
Application number
PCT/JP2023/019859
Other languages
English (en)
French (fr)
Inventor
崇史 服部
修一郎 錦織
裕史 竹田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023243375A1 publication Critical patent/WO2023243375A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis

Definitions

  • remote live events In recent years, many remote live events have been held. In remote live performances, video data of performers and audience members from live venues where entertainment such as music and theater is being performed is distributed in real time to terminals used by audience members outside the live venue (hereinafter referred to as remote audience members). be done.
  • reaction audio audio indicating the reactions of remote audience members
  • reaction audio audio data of the recorded reaction audio
  • the reaction voices of other remote audience members are superimposed and presented on the voice of the main performer of the content, thereby inducing a sense of participation in the live event in the remote audience, and making the remote audience feel the excitement. and feel a sense of unity.
  • JP2020-004392A Japanese Patent Application Publication No. 2012-129800 JP2010-232860A
  • the information terminal provides encoded data in which audio information indicating audio collected by one or more transmission source terminals is encoded, and is related to the transmission source terminal.
  • the apparatus includes a decoding unit that decodes the encoded data whose information amount is determined based on attribute information, and an output control unit that outputs audio based on the decoded audio information from an output device used by a user.
  • an information terminal receives audio information indicating audio collected by one or more transmission source terminals based on attribute information regarding the transmission source terminals.
  • the encoded data is decoded, and audio based on the audio information is output from an output device used by the user.
  • FIG. 3 is a diagram illustrating an example of the position of each remote audience member in a virtual space.
  • FIG. 2 is a block diagram showing a configuration example of a server.
  • FIG. 2 is a block diagram showing a detailed configuration example of a reaction voice processing selection section. It is a flowchart explaining the processing which a server performs.
  • 21 is a flowchart illustrating the reaction voice processing selection process performed in step S2 of FIG. 20.
  • FIG. FIG. 6 is a diagram showing an example of a table used in data selection processing and encoding quality change processing.
  • FIG. 2 is a block diagram showing an example of the configuration of a spectator terminal.
  • FIG. 7 is a diagram illustrating an example of audio data before parameterization included in encoding reaction data and audio data of a template based on the parameters.
  • FIG. 6 is a diagram illustrating an example of a result of voice recognition of a reaction voice in a server. It is a figure which shows the flow of reaction audio
  • FIG. 6 is a diagram illustrating an example of encoded reaction data addressed to a remote spectator as a transmission destination, which is switched depending on the communication status.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of a computer.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of a remote live system to which the present technology is applied.
  • remote audiences A and B are shown participating in a remote live performance at a location outside the live venue, such as at home or inside a facility such as a karaoke box.
  • remote audience A uses a tablet terminal to participate in the live event
  • remote audience B uses a PC (Personal Computer) to participate in the live event.
  • PC Personal Computer
  • remote audience members users
  • the number of remote audience members is not limited to two, and in reality, many more remote audience members participate in the live event.
  • reaction data is the result of collecting sounds such as cheers, applause, and hand gestures (hereinafter referred to as reaction audio) emitted by remote audience members A and B in response to the content. ) is acquired as audio information indicating the reaction audio.
  • Each audience terminal receives the video data of the distributed video and the audio data of the distributed audio transmitted from the server 100, and presents the distributed video and audio to the remote audience. For example, distributed video is displayed on a display (not shown), and distributed audio is output from a speaker (not shown). Displays and speakers are output devices used by remote audiences. Each audience terminal also receives a plurality of reaction data transmitted from the server 100, and processes the reaction audio as necessary. Each audience terminal superimposes the reaction audio onto the distributed audio and presents it to the remote audience.
  • video data of the remote spectator's face and movements, as well as tactile information related to the remote spectator's sense of touch are acquired by the spectator terminal and sent to other spectator terminals.
  • video data of the remote spectator's face and movements are acquired by the spectator terminal and sent to other spectator terminals.
  • tactile information related to the remote spectator's sense of touch
  • video data of the remote spectator's face and movements are acquired by the spectator terminal and sent to other spectator terminals.
  • an image of an avatar showing how the remote audience member moves is presented based on a video shot of the remote audience member.
  • tactile information based on tactile information, physical contact such as high-fives between remote spectators in the virtual space, the strength with which remote spectators grip the penlight, and the vigor with which they shake the penlight are reproduced.
  • FIG. 4 is a diagram showing an example of a remote live performance.
  • a large number of remote audience members participating in the remote live performance are arranged at predetermined positions in the virtual space, for example, as shown in A of FIG.
  • the remote audience member U1 among the many remote audiences is presented with the distributed video, and the reaction sounds of other remote spectators placed in the same virtual space are presented superimposed on the distributed audio.
  • the remote audience U1 By superimposing the reaction audio on the distributed audio and presenting it to the remote audience U1, the remote audience U1 can hear the performer's distributed audio shown in the balloon #1 of B in FIG. You can listen to the reactions of other remote audience members at the same time.
  • reaction audio is presented to the remote audience in addition to the distributed audio, which induces a sense of participation in the live event from the remote audience, allowing the remote audience to feel the excitement and feel a sense of unity. It becomes possible to
  • FIG. 5 is a diagram showing an example of data sent from the server 100 when a large number of remote audience members participate in a remote live performance.
  • Patent Documents 1 to 3 disclose methods for preventing traffic congestion.
  • FIG. 6 is a diagram illustrating an example of how reaction sounds are heard when reaction data is transmitted based on priority.
  • the The audience's reaction data is set as a low priority, and the reaction data of other nearby remote audience members is set as a high priority.
  • reaction data of other remote spectators who are far away from the remote audience U1 is not sent to the audience terminal of the remote audience U1, so the reaction audio of other remote audience members who are far away from the remote audience U1 is presented to the remote audience U1. Not done.
  • reaction data of other remote spectators near the remote spectator U1 is transmitted to the spectator terminal of the remote spectator U1, and only the reaction voices of the other remote spectators near the remote spectator U1 are presented to the remote spectator U1. be done.
  • the remote audience member U1 cannot hear the reaction audio of other remote audience members who are far away, which is indicated by the dashed line in the lower part of FIG. You will only hear the reaction voices of other remote spectators near U1. If only the reaction audio of other nearby remote audience members is presented, the remote audience U1 will not be able to feel the excitement and enthusiasm that can be felt from the cheers of a large number of people, which is typical of large-scale live events, and this will reduce participation in the live event. It may become impossible to induce consciousness.
  • the remote live system of the present technology prevents traffic pressure by changing the amount of reaction data sent to each audience terminal based on attribute information regarding each audience terminal.
  • the performer terminal receives the reaction data of all remote audience members and transmits the video data of the distributed video and the audio data of the distributed audio.
  • the spectator terminal used by remote spectator A receives the video data of the distributed video and the audio data of the distributed audio transmitted from the server 100, and also receives reaction data of remote spectators other than remote spectator A transmitted from the server 100. receive.
  • the spectator terminal used by the remote spectator A transmits reaction data of the remote spectator A to the server 100, and also transmits attribute information regarding the spectator terminal to the server 100.
  • the spectator terminal used by remote spectator B receives the video data of the distributed video and the audio data of the distributed audio transmitted from the server 100, and also receives reaction data of remote spectators other than remote spectator B transmitted from the server 100. receive.
  • the spectator terminal used by the remote spectator B transmits the reaction data of the remote spectator B to the server 100, and also transmits attribute information regarding the spectator terminal to the server 100.
  • the video data of the distributed video and the audio data of the distributed audio are transmitted between each device configuring the remote live system in the form of distributed data, which is data in which the video data of the distributed video and the audio data of the distributed audio are encoded. exchanged. Further, the reaction data is exchanged between the devices making up the remote live system in the form of encoded reaction data, which is data in which the reaction data is encoded.
  • the attribute information is, for example, information indicating the position in the virtual space of a remote spectator using a spectator terminal.
  • the server 100 calculates the distance between the remote spectators in the virtual space based on the attribute information, and calculates the distance between the remote spectators based on the distance between the remote spectators.
  • the amount of information of the encoded reaction data sent to is changed.
  • FIG. 8 is a diagram illustrating an example of a method for determining the amount of information of encoded reaction data based on the distance between remote spectators.
  • the server 100 divides a large number of other remote spectators around the remote spectator U1 in the virtual space shown in the upper part of FIG. 8 into, for example, four groups, as shown in the lower part of FIG.
  • a group A1 is made up of a remote spectator U1 and other remote spectators near the remote spectator U1, and groups A2 to A4 are made up of other remote spectators far away from the remote spectator U1.
  • the remote audience is divided into two.
  • the server 100 When transmitting reaction data to remote spectator U1, the server 100 sets a high priority for group A1 and increases the encoding quality of the encoded reaction data of remote spectators belonging to group A1. On the other hand, the server 100 sets the priority of the groups A2 to A4 low, and lowers the encoding quality of the encoded reaction data of the remote audience members belonging to the groups A2 to A4. Note that the encoded reaction data of the remote audience members belonging to groups A2 to A4 may be summed up as one encoded reaction data for each group.
  • the number of remote spectators increases, the number of remote spectators who are regarded as distant remote spectators for the remote spectator U1 increases, so that the encoding quality of more encoded reaction data can be lowered. Therefore, as the scale of a remote live event increases, the amount of information that is reduced in the encoded reaction data transmitted to each audience terminal also increases.
  • the coded reaction data of other remote spectators who are far away is not transmitted to the spectator terminal of remote spectator U1, but in the remote live system of the present technology, the encoded reaction data of other remote spectators who are far away
  • the encoded reaction data of other remote spectators is also transmitted to the spectator terminal of the remote spectator U1 while reducing the amount of information by changing the encoding quality.
  • the audience terminal can reproduce a situation in which the cheers of a large number of remote audience members who are far away can be heard, so the remote audience member U1 can feel the excitement and feel a sense of unity from the cheers of a large number of remote audience members. becomes.
  • FIG. 9 is a diagram explaining the process of the server 100A that simulates the reaction sounds heard at each audience position in the virtual space.
  • encoded reaction data for N people is input to the server 100A, and the server 100A decodes the encoded reaction data for N people. Therefore, in the server 100A, decoding is performed N times.
  • the server 100A performs a process of summing the reaction data of remote audience A and a reaction data of remote audience B, and performs convolution processing of acoustic characteristics according to the positional relationship of each remote audience, thereby presenting information to remote audience C.
  • reaction data of all remote spectators except remote spectator U1 who is in the same virtual space as remote spectator U1, which is shown surrounded by a circle in FIG. is transmitted to the spectator terminal of remote spectator U1. Because the reaction data of all remote audience members is combined, there is a possibility that a large delay will occur in the reaction audio of all remote audience members, as shown in the balloon in Figure 10, regardless of the distance between the remote audience members in the virtual space. There is.
  • encoded reaction data for N people is input to the server 100.
  • the server 100 does not perform decoding and convolution processing of encoded reaction data. Instead of performing decoding and convolution processing, the server 100 performs possible summation processing and encoding quality change processing on the encoded reaction data without performing all decoding processing.
  • the encoding quality changing process will be described.
  • the encoding reaction data is an "encoded bit string" that has been entropy encoded using, for example, a Huffman code. Therefore, the server 100 only decodes this encoded bit string, readjusts the bit allocation amount for the obtained data, requantizes it, and performs entropy encoding again. With this method, encoding quality can be changed (limited) with a small amount of calculation.
  • the server 100 performs the steps up to the stage before converting from the frequency domain to the time domain (for example, IMDCT (Inverse Modified Discrete Cosine Transform)) in the decoding process of audio encoding, and performs the summation in the frequency domain. After that, quantization and entropy encoding are performed.
  • IMDCT Inverse Modified Discrete Cosine Transform
  • quantization and entropy encoding are performed.
  • the conversion process from the frequency domain to the time domain which was required for the number of encoded reaction data to be summed
  • MDCT Modified Discrete Cosine Transform
  • server 100 adds up the encoded reaction data of remote audience B and the encoded reaction data of remote audience C.
  • One piece of coded reaction data to be presented to remote audience member A is generated by performing the processing and the process of changing the coding quality of the coded reaction data that has already been summed.
  • server 100 transfers the encoded reaction data of remote audience C and the encoded reaction data of remote audience A to remote audience B. This is the encoded reaction data to be transmitted. Since the communication status between the audience terminal of remote audience C and the server 100 is good, the server 100 transmits the encoded reaction data of remote audience A and the encoded reaction data of remote audience B to remote audience C as they are. This is the encoded reaction data.
  • the number of coded reaction data sent to remote audience B and remote audience C is two, but in reality, the number of coded reaction data sent to each remote audience is two. Change dynamically.
  • the computational load on the server 100 can be reduced by performing possible summing processing and encoding quality change processing on all encoded reaction data without performing all decoding processing.
  • encoded reaction data sent from other spectator terminals is passed through and transmitted to spectator terminals with good communication conditions (low delay path), so decoding, summation, and encoding quality are It is possible to suppress the increase in the amount of calculations and the occurrence of delays due to processing such as changing the .
  • the remote live system of the present technology is a system with a lower amount of calculation and lower delay than the remote live system to which the methods disclosed in Patent Documents 2 and 3 are applied.
  • FIG. 12 is a diagram illustrating an example of a delay caused by processing based on the distance between remote spectators.
  • group A1 is made up of remote spectator U1 and other remote spectators who are near remote spectator U1
  • groups A2 to A4 are made up of other remote spectators who are far from remote spectator U1.
  • the remote audience is divided into two.
  • the server 100 When transmitting the encoded reaction data to the remote spectator U1, the server 100 does not perform summing or change the encoding quality, for example, to the encoded reaction data of the remote spectators belonging to the group A1. Therefore, the reaction voices of the remote audience members belonging to group A1 are presented to remote audience member U1 with a low delay.
  • the server 100 for example, adds up the coded reaction data of the remote audience members belonging to groups A2 to A4 for each group, and changes the coding quality of the combined coded reaction data. Therefore, the reaction voices of the remote audience members belonging to groups A2 to A4 are presented to the remote audience member U1 with a delay.
  • the reaction voices of the remote audience members who belong to the same group are presented to the remote audience member U1 with low delay and high quality, so the remote audience member U1 can verbally communicate with the remote audience members who belong to the same group. .
  • the remote audience member U1 can verbally communicate with the remote audience members who belong to the same group.
  • verbal communication is usually limited to people who are nearby, it is possible to reduce the delay in the reaction voices of nearby remote audience members. If possible, it is enough.
  • the amount of information of encoded reaction data as audio information indicating audio collected by one or more audience terminals is determined based on at least the attribute information regarding the audience terminal that is the transmission source.
  • the encoded reaction data is determined and the amount of information is adjusted by changing the encoding quality, etc., and is transmitted as encoded reaction data to the spectator terminals of each remote spectator at the transmission destination.
  • the server 100 when transmitting encoded reaction data from a remote audience located far away in a virtual space, the effect of reducing traffic through summing or changing the encoding quality is prioritized over the occurrence of delay, and For the transmission of coded response data for a limited number of remote audiences in the network, reducing latency and transmitting high quality data are prioritized over reducing traffic.
  • the server 100 can reduce traffic while minimizing the disadvantages caused by delays.
  • FIG. 13 is a diagram illustrating the process of the server 100A that simulates reaction voices for each group.
  • remote audience A belongs to group 1
  • remote audience B and remote audience C belong to group 2.
  • the simulation processing for one person such as decoding encoded reaction data for N people and performing summing processing and convolution processing of the reaction data, is different from the simulation processing for one person when simulating the reaction voice for each remote audience at the transmission destination. Since this is the same as the simulation process for minutes, it is not effective in reducing delays.
  • reaction data to be presented to group 2 is generated using not only the reaction data of remote spectator A but also the reaction data of remote spectators B and C themselves. Ru. This is because the reaction data to be presented to group 2 serves as reaction data to be presented to remote audience B and reaction data to be presented to remote audience C.
  • the audio presented to remote audience B requires the reaction audio of remote audience C
  • the audio presented to remote audience C requires the reaction audio of remote audience B, and such conditions
  • remote audience member A belongs to group 1. Therefore, it is also possible to generate reaction data to be presented to group 1 (remote audience A) without using reaction data of remote audience A itself.
  • each group includes at least two or more remote spectators, as in group 2. Therefore, with this method, each remote audience member is usually presented with a reaction voice that also includes their own voice.
  • FIG. 14 is a diagram illustrating processing for each group performed by the server 100 of the present technology.
  • remote audience A belongs to group 1
  • remote audience B and remote audience C belong to group 2, as in FIG.
  • encoded reaction data for N people is input to the server 100.
  • the server 100 does not perform decoding and convolution processing of encoded reaction data. Instead of performing decoding and convolution processing, the server 100 performs possible summation processing and encoding quality change processing on each group of encoded reaction data without performing all decoding processing.
  • the server 100 performs processing for summing the encoded reaction data of remote spectator B and the encoded reaction data of remote spectator C who belong to group 2, and the encoding quality of the combined encoded reaction data. By performing the process of changing , one encoded reaction data to be presented to remote audience A belonging to group 1 is generated.
  • the server 100 adds up the coded reaction data of the remote audience members A who belong to group 1, and changes the coding quality of the coded reaction data that has already been added.
  • One piece of encoded reaction data is generated to be presented to remote audience members B and C.
  • the server 100 converts the encoded reaction data of remote audience member C into encoded reaction data that is transmitted to remote audience member B as is, and encodes the encoded response data of remote audience member B to be transmitted as is to remote audience member C. Use as reaction data.
  • a plurality of encoded reaction data are transmitted to the audience terminals without performing simulation processing, so different processing is performed at the audience terminals between the present technology and the method disclosed in Patent Document 2. .
  • FIG. 16 is a diagram illustrating processing at a spectator terminal according to the present technology.
  • a spectator terminal used by remote spectator A among remote spectators A to C will be described.
  • the spectator terminal of the present technology receives encoded reaction data of remote spectator B and encoded reaction data of remote spectator C, and decodes and obtains the encoded reaction data. Performs summation processing and convolution processing on the reaction data. That is, in the spectator terminal of the present technology, processing equivalent to the simulation processing performed by the server 100A in the method disclosed in Patent Document 2 is performed. Accordingly, the audience terminal locally generates superimposed audio data based on the received one or more reaction data. In other words, in the remote live system of the present technology, simulation processing is not performed all at once within the server 100, but is performed in a distributed manner on each audience terminal.
  • the audience terminal After performing the summation process and the convolution process, the audience terminal superimposes the superimposed audio on the distributed audio and plays it back, as shown in #12 of FIG.
  • FIG. 17 is a diagram showing an example of the position of each remote audience member in the virtual space.
  • the server 100 converts the bit rate of the encoded reaction data for nine remote spectators 10 to 18 belonging to group 2 from 64 kbps to 20 kbps, and transmits the encoded reaction data with the bit rate converted to the remote audience. Send to the spectator terminal No. 5.
  • the server 100 converts the bit rate of the encoded reaction data for nine remote spectators 19 to 27 belonging to group 3 from, for example, 64 kbps to 20 kbps, and converts the encoded reaction data with the converted bit rate to remote spectator 5. Send to spectator terminal.
  • the server 100 converts the bit rate of the encoded reaction data for nine remote spectators 28 to 36 belonging to group 4 from, for example, 64 kbps to 10 kbps, and converts the encoded reaction data with the converted bit rate to remote spectator 5. Send to spectator terminal.
  • the server 100 includes a receiving section 101, a reaction voice processing selection section 102, and a transmitting section 103.
  • the reaction voice processing selection section 102 includes a plurality of conversion sections 111A to 111Z and a data selection section 112.
  • step S3 the transmitter 103 performs data transmission processing and transmits the distribution data, a group of encoded reaction data addressed to each remote spectator, and part or all of the attribute information regarding each spectator terminal to each spectator terminal.
  • the transmitting unit 103 also transmits encoded reaction data of each remote audience, including at least one of processed encoded reaction data and unprocessed encoded reaction data, and part or all of the attribute information regarding each terminal. , and send it to the performer's terminal.
  • the attribute information regarding each spectator terminal may be transmitted only when the amount of change in the position of each remote spectator on the virtual space is larger than a threshold value.
  • reaction voice processing selection process performed in step S2 of FIG. 20 will be described with reference to the flowchart of FIG. 21.
  • step S12 the conversion unit 111 performs encoding quality change processing, converts the encoding quality of each remote spectator's encoded reaction data to the encoding quality corresponding to the conversion unit 111, and converts the processed encoding Generate reaction data.
  • the encoding quality pattern of the processed encoding reaction data generated by the encoding quality change process is determined based on a table described below. For example, by converting the encoding quality of the encoded reaction data of remote audience 1 to 10kbps and 20kbps to generate two processed encoded reaction data, the encoding quality of the generated encoded reaction data can be changed. A pattern policy is determined based on the table.
  • step S13 If it is determined in step S13 that the conversion of all the encoding reaction data has not been completed, the process returns to step S12, and the encoding is continued until the encoding reaction data that has been converted to the encoding quality of all the necessary patterns is obtained. Quality change processing continues.
  • step S13 determines whether all conversion of the encoded reaction data has been completed. If it is determined in step S13 that all conversion of the encoded reaction data has been completed, the process proceeds to step S14.
  • step S14 the data selection unit 112 performs data selection processing and selects encoded reaction data addressed to each remote audience member.
  • step S14 the selection of encoded reaction data addressed to each remote audience member in step S14 is performed based on the same table used in the encoding quality change process.
  • This table contains the audience ID of the destination remote audience and the coded reaction data group for the destination remote audience, for example, which coded reaction data should be sent to the audience terminal of each remote audience.
  • the correspondence relationship between each encoding reaction data included in the encoding quality pattern is shown.
  • FIG. 22 is a diagram showing an example of a table used in the data selection process and the encoding quality change process.
  • FIG. 22 information about encoded reaction data addressed to remote spectators 5, 13, 23, and 36 among remote spectators 1 to 36 belonging to groups 1 to 4 described with reference to FIG. 17 is described. .
  • FIG. 22 for convenience of explanation, only the information about the encoded reaction data addressed to four representative remote audience members belonging to each group is extracted and described, but in reality, all of the information is shown. Information about the coded response data destined for the destination remote audience is entered in the table.
  • the table is set up with a rule that the encoding quality of the encoding reaction data of other remote spectators assigned to the group to which the destination remote spectator belongs is not converted.
  • the encoding quality of the encoded response data of other remote spectators assigned to groups adjacent to the group to which the destination remote audience belongs is converted to 20 kbps
  • a table is set up with a rule that converts the encoding quality of the encoded response data of other remote audience members assigned to a group to 10 kbps.
  • the encoding quality pattern is not limited to this, and may be set arbitrarily. For example, an arbitrary conversion pattern may be set by the user. Further, the encoding quality of the encoded reaction data of other remote spectators assigned to the group to which the destination remote spectator belongs may be changed as appropriate.
  • the table contains encoded reaction data for remote spectators 1 to 4 and remote spectators 6 to 9 belonging to group 1 as encoded reaction data addressed to remote spectator 5 belonging to group 1, and contains raw encoded reaction data. Selecting reaction data is recorded.
  • the encoded reaction data addressed to remote audience 5 select the encoded reaction data of remote spectators 10 to 18 belonging to group 2, whose encoding quality has been converted to 20 kbps. is recorded.
  • the encoded reaction data addressed to the remote audience 5 the encoded reaction data of remote spectators 28 to 36 belonging to group 4, whose encoding quality has been converted to 10 kbps, is selected. is recorded.
  • the table also includes coded reaction data for remote spectators 1 to 9 belonging to group 1 as encoded reaction data addressed to remote spectator 13 belonging to group 2, and codes whose encoding quality has been converted to 20 kbps. Selecting reaction data is recorded.
  • the table contains encoded reaction data for remote spectators 10 to 12 and remote spectators 14 to 18 belonging to group 2 as encoded reaction data addressed to remote spectator 13, and it is possible to select raw encoded reaction data. is recorded.
  • the table shows the encoding reaction data of remote spectators 1 to 9 belonging to group 1 as the encoding reaction data addressed to remote audience 23 belonging to group 3, and the encoding response whose encoding quality has been converted to 20 kbps. Selecting data is recorded. In the table, select the encoded reaction data of remote spectators 10 to 18 belonging to group 2, whose encoding quality has been converted to 10 kbps, as the encoded reaction data addressed to the remote audience 23. is recorded.
  • the table contains encoded reaction data for remote spectators 19 to 22 and remote spectators 24 to 27 belonging to group 3 as encoded reaction data addressed to remote spectator 23, and it is possible to select raw encoded reaction data. is recorded.
  • the table shows the encoding reaction data of remote spectators 1 to 9 belonging to group 1 as the encoding reaction data addressed to remote audience 36 belonging to group 4, and the encoding reaction with the encoding quality converted to 10 kbps. Selecting data is recorded.
  • the encoded reaction data of remote spectators 10 to 18 belonging to group 2, whose encoding quality has been converted to 20 kbps, is selected as the encoded reaction data addressed to the remote audience 36. is recorded.
  • the attribute information regarding the audience terminal may include information indicating the degree of familiarity (degree of relationship) of the remote audience member using the audience terminal with other remote audience members.
  • the degree of intimacy indicates, for example, whether or not another remote audience member is a friend of the remote audience member using the audience terminal, and how close the other remote audience member is.
  • the server 100 divides each remote audience into groups such that, for example, remote audiences with a high degree of intimacy are placed in the same group.
  • the encoding quality of the encoded response data sent to the performer's terminal for example, if a remote audience member who is particularly enthusiastic about the remote live event is in the same group as the performer, and the table is Set.
  • the encoded reaction data of remote audience members belonging to the same group is sent to the performer's terminal without changing the encoding quality or in high quality, so the reaction audio of remote audience members with high enthusiasm is prioritized. It becomes possible to present it to the performer.
  • the attribute information may include information such as billing amounts for remote live events and product sales, for example.
  • the attribute information may include, for example, information regarding the remote audience's listening attitude toward the content.
  • the listening attitude of a remote audience can be determined, for example, by sensing the movement of the remote audience's gaze during a live event using each audience terminal, or by measuring whether the timing of cheers is appropriate using each audience terminal. Obtained based on.
  • users with visual impairments can be prioritized to belong to the same group as the performers, allowing them to feel a sense of unity with the performers, and making the live experience more realistic even for people with disabilities. It can be enjoyed at a high level and can be expected to improve accessibility.
  • the user uses a hearing aid or a sound collector, it is desirable that the audio data presented to the user be processed with hearing aids, but in the case of normal hearing aid processing, the audio is mechanically processed. There is a possibility that it will be amplified and the realistic atmosphere of the live performance will be lost. Therefore, when a certain user uses a hearing aid or a sound collector, the user can transmit the device data and hearing data of the user's own hearing aid or sound collector to the server 100, and the hearing aid process can be personalized for the user. may be used.
  • Biometric data can be easily obtained by, for example, installing various sensors such as a body temperature sensor and a pulse sensor on a penlight used by the user during live performances. Based on the biometric data acquired in this way, the degree of excitement of the user is estimated, and for users who are highly excited (for example, users whose body temperature and pulse rate are rising), the user By increasing the sound pressure of the reaction data presented to the user and increasing the brightness of the video data, it is expected that the user's excitement level will be maintained and the satisfaction level of the live performance will be improved.
  • the spectator terminal mainly has the following functions. - Collect audience reactions and send them to the server 100 as coded reaction data. ⁇ Receive the distribution data, decode the distribution data, and obtain the distribution video and distribution audio. ⁇ Receive coded reaction data groups from other remote audience members and generate superimposed audio. ⁇ Present the distributed video and superimpose the superimposed audio on the distributed audio.
  • the specific equipment used as spectator terminals may vary depending on the use case and the equipment possessed by the remote spectator. An example of a spectator terminal will be described below.
  • Example of installing the function as a spectator terminal on a smartphone or tablet terminal By pre-installing a live distribution application that supports the remote live system of this technology on the smartphone or tablet terminal, the smartphone or tablet terminal can be used as a spectator terminal. can do.
  • the distributed video is presented on a display or head-mounted display connected to the PC or game console, and is superimposed with the distributed audio using speakers connected to the PC or game console, inner-ear headphones, headphones, hearing aids, sound collectors, etc. Audio is presented.
  • the function as a performer terminal can also be realized by a device similar to the device described above. It is desirable that the superimposed audio does not interfere with the performance for the performers, and it is also desirable that the superimposed audio does not mix with the distributed audio. It is desirable that it be presented mixed with
  • the reaction audio recording unit 201 records the reaction audio of the remote audience using, for example, a microphone 220 connected to the audience terminal 200.
  • the reaction voice recording unit 201 encodes reaction data indicating the reaction voice in a format suitable for transmission to the server 100 to generate encoded reaction data, and supplies the encoded reaction data to the transmission unit 202 .
  • the reaction audio summation unit 205 generates superimposed audio, which is audio to be superimposed on the distributed audio, based on the coded reaction data group of other remote spectators supplied from the receiving unit 203 and the attribute information regarding the other audience terminals 200. data is generated and supplied to the audio superimposition unit 206.
  • the summation/convolution unit 212 convolves the acoustic characteristics based on the positions of other remote spectators indicated by the attribute information regarding the other audience terminals 200 with the reaction data corresponding to the attribute information, so that the acoustic characteristics are convolved. Add up the reaction data obtained. Through convolution processing and summing processing, the reaction sounds of other remote audience members heard at the remote audience's own position in the virtual space are reproduced. Further, the summation/convolution unit 212 adjusts the volume of the reaction voice, for example, so that the reaction voice of the remote audience member 2 who is a friend can be heard louder by the remote audience member 1 based on the setting information.
  • step S21 the reaction audio recording unit 201 performs recording processing, uses the microphone 220 to record the reaction audio of the remote audience using the audience terminal 200, and records the reaction in a known format such as PCM (Pulse Code Modulation). Generate data.
  • PCM Pulse Code Modulation
  • step S52 After the summation/convolution process is performed in step S52, the process returns to step S33 in FIG. 26, and subsequent processes are performed.
  • FIG. 28 is a block diagram showing a configuration example of the performer terminal 300.
  • the server 100 adds up the encoded reaction data for nine remote spectators 28 to 36 belonging to group 4 to form one encoded reaction data.
  • the bit rate of the combined encoded reaction data is, for example, 64 kbps.
  • the table records that 64 kbps encoded reaction data, which is the sum of the encoded reaction data of remote spectators 19 to 27 belonging to group 3, is selected as the encoded reaction data addressed to remote audience 13.
  • the table records that 64 kbps of coded reaction data, which is the sum of the coded reaction data of remote spectators 28 to 36 belonging to group 4, is selected as the coded reaction data addressed to the remote audience 13.
  • the server 100 when transmitting encoded reaction data of remote spectators other than remote spectator 5 to the spectator terminal of remote spectator 5, the server 100 transmits coded reaction data of remote spectators 1 to 4 who belong to group 1, which is the group to which remote spectator 5 belongs. Encoded reaction data for eight remote spectators 6 to 9 is transmitted without converting the encoding quality. For example, if the original bit rate of the encoded reaction data transmitted from the spectator terminal to the server 100 is 64 kbps, the codes of remote spectators 1 to 4 and remote spectators 6 to 9 transmitted to the spectator terminal of remote spectator 5 are The bit rate of reaction data is also 64kbps.
  • the server 100 adds up the encoded reaction data for nine remote spectators 10 to 18 belonging to group 2 to form one encoded reaction data.
  • the server 100 acquires parameters from the waveform of the reaction data obtained by decoding the combined coded reaction data, and sends the data generated by coding the parameters to the audience terminal of the remote audience member 5 as coded reaction data. Send. Since the reaction data included in the encoded reaction data is replaced with a parameter, the bit rate of the encoded reaction data is, for example, 1 kbps.
  • the server 100 adds up the bit rates of the encoded reaction data for nine remote spectators 19 to 27 belonging to group 3 to form one encoded reaction data.
  • the server 100 acquires parameters from the waveform of the reaction data obtained by decoding the combined coded reaction data, and sends the data generated by coding the parameters to the audience terminal of the remote audience member 5 as coded reaction data. Send. Since the reaction data included in the encoded reaction data is replaced with a parameter, the bit rate of the encoded reaction data is, for example, 1 kbps.
  • the server 100 sums up the bit rates of the encoded reaction data for nine remote spectators 28 to 36 belonging to group 4 to form one encoded reaction data.
  • the server 100 acquires parameters from the waveform of the reaction data obtained by decoding the combined coded reaction data, and sends the data generated by coding the parameters to the audience terminal of the remote audience member 5 as coded reaction data. Send. Since the reaction data included in the encoded reaction data is replaced with a parameter, the bit rate of the encoded reaction data is, for example, 1 kbps.
  • the reaction data included in the coded reaction data is used as a parameter. By replacing it, it becomes possible to further reduce traffic than in the modification of the first embodiment. Note that the reaction data included in the encoded reaction data for each remote audience member that has not been summed up may be replaced with each parameter.
  • the table used in the data selection process and the encoding quality change process is the table explained with reference to FIG. 30, in which other remote audiences assigned to groups other than the group to which the destination remote audience belongs are added up Instead of the rule that the encoding quality of the encoded reaction data is set to 64 kbps, the table is set according to the rule that the reaction data included in the combined encoded reaction data is parameterized.
  • the configuration of the remote live system according to the second embodiment is basically the same as the configuration of the remote live system according to the first embodiment. Note that since the contents of the reaction voice processing selection process of the server 100 and the reaction voice summation process of the audience terminal 200 according to the second embodiment are different from the contents of these processes according to the first embodiment, the reaction voice The different parts of the processing selection process and the reaction voice summing process will be specifically explained.
  • a parameter indicating a reaction voice for example, information indicating amplitude fluctuations of reaction data included in encoded reaction data is used.
  • the parameter indicating amplitude fluctuation includes, for example, an average value for each frame.
  • the audience terminal 200 When the parameter indicates an average value, the audience terminal 200 appropriately changes the loudness of the cheering sound held as a template based on the parameter and plays it back, so that multiple other remote spectators (the public) can hear the cheering. Whether it is fried or not is reproduced. By listening to the reaction audio that reproduces whether or not other remote audience members are cheering, remote audience members can get a rough idea of how excited the other remote audience members are.
  • FIG. 32 is a diagram showing an example of audio data before parameterization included in the encoding reaction data and audio data of a template based on the parameters.
  • a in FIG. 32 shows the waveform of audio data obtained by the server 100 decoding coded reaction data in which coded reaction data of remote audience members belonging to the same group are summed.
  • the server 100 calculates the average value of the audio data included in the encoded reaction data for each frame.
  • the horizontal length of each broken-line rectangle surrounding a part of the waveform indicates the frame length
  • the vertical length indicates the average value.
  • the average value A of the audio data included in the encoded reaction data is calculated using the following formula (1).
  • x(n) indicates the waveform of one frame of the summed reaction data
  • T[sample] indicates the frame length
  • audio encoding is performed in frame units of several ms to 100 ms, so the server 100 replaces the reaction data included in the encoded reaction data with a parameter indicating the average value for each frame. Compared to the case where reaction data is encoded and transmitted as is, it is possible to significantly reduce the information amount of encoded reaction data.
  • B in FIG. 32 shows the waveform of the audio data of the template of the cheering sound that is presented as the reaction sounds of a plurality of other remote spectators on the audience terminal 200.
  • the audience terminal 200 decodes the encoded reaction data sent from the server 100 and obtains the average value A of the reaction data.
  • the audience terminal 200 holds in advance the audio data of a cheering sound template (hereinafter referred to as a template cheering sound), and converts the audio data of the template cheering sound into reaction data that is the sum of the reaction sounds of multiple remote audience members. In place of.
  • the audience terminal 200 adjusts the volume of the template cheering sound so that the average value A template of the audio data of the template cheering sound matches the average value A of the reaction data.
  • the waveform of the audio data of template cheering sound for one frame is x template (n)
  • the average value A template is expressed by the following equation (2).
  • the spectator terminal 200 integrates the ratio of the average value A and the average value A template to the original waveform x template (n), as shown in equation (3) below, so that, as shown in B of FIG. 32, A waveform y(n) of audio data of a template cheering sound with an adjusted average value for each frame is generated.
  • the horizontal length of each broken-line rectangle surrounding a part of the waveform indicates the frame length T
  • the vertical length indicates the average value A.
  • the audience terminal 200 can reproduce the template cheering sound so that discontinuities are not noticeable by overlapping processing performed in normal audio encoding.
  • the parameters sent to the audience terminals 200 may include information indicating the scale of the remote live performance.
  • the parameter indicating the scale of the remote live performance includes, for example, information indicating the number of remote audience members belonging to each group.
  • the audience terminal 200 stores in advance a plurality of template cheer sounds according to the scale, and selects the template cheer sound to be used from among the plurality of template cheer sounds based on the attribute information. select.
  • the audience terminal 200 If the parameter indicates the result of voice recognition, the audience terminal 200 generates voice data of the synthesized voice based on the parameter and adds it up.
  • the audience terminal 200 can reproduce the simultaneous cheering of multiple remote audience members by outputting the combined synthesized audio.
  • FIG. 33 is a diagram illustrating an example of the result of voice recognition of a reaction voice in the server 100.
  • the server 100 acquires reaction data by decoding coded reaction data in which coded reaction data of remote audience members belonging to the same group are summed, and uses a known voice recognition technology to generate a message as shown in the balloon in FIG. 33. Next, text information indicating the words included in the reaction voice indicated by the reaction data is obtained. Here, the text information becomes a parameter expressing the reaction voice. In the example of FIG. 33, text information of "Encore! is acquired.
  • the server 100 uses information indicating that meaningful words could not be acquired in place of the text information.
  • the server 100 transmits data in which text information is encoded to the audience terminal 200 as processed encoded reaction data.
  • the server 100 also transmits attribute information including information indicating the number of remote spectators belonging to each group to the spectator terminal 200.
  • the audience terminal 200 decodes the encoded reaction data sent from the server 100, and obtains text information T1 and attribute information, as shown on the left side of FIG.
  • the audience terminal 200 uses a known voice synthesis technique to generate voice data of a synthesized voice uttering "Encore! based on the text information T1.
  • the audience terminal 200 performs voice synthesis by variously changing voice synthesis parameters such as gender and age, thereby generating the same number of synthesized voice voice data as the number of remote audience members belonging to one group. Since speech synthesis is performed by changing gender, age, etc., a wide variety of synthesized speech variations are generated.
  • voice data AD1 is a synthesized voice that reproduces the voice of a man in his 60s saying "Encore!
  • voice data AD2 is a synthesized voice that reproduces the voice of a woman in her 20s saying "Encore!
  • voice data AD3 of a synthesized voice that reproduces the voice of a man in his 30s saying "Encore! is generated.
  • the synthesized voices of several people generated by voice synthesis are used as a base, and the phase is slightly shifted and the pitch is changed. By performing such processing, the same number of synthesized voice audio data as the number of remote audience members belonging to one group may be generated. By using this method, the amount of calculation by the audience terminal 200 can be reduced.
  • the audience terminal 200 generates superimposed audio data by performing summation and convolution processing on the synthesized audio audio data AD1 to AD3.
  • the superimposed audio is presented while being superimposed on the distributed audio.
  • phrases (clichés) that may be uttered by the audience during the live event may be set in advance by the organizer of the remote live event.
  • the server 100 detects that the remote spectator has uttered this phrase using voice recognition, a preset number corresponding to the phrase is encoded instead of the text information and sent from the server 100 to the audience terminal 200. Ru.
  • the parameters sent to the audience terminal 200 may include information indicating the voice quality of the remote audience members belonging to each group.
  • Parameters indicating the voice quality of remote audience members belonging to each group include, for example, mel cepstrum and spectral envelope. Further, the parameters indicating the voice quality of the remote audience members belonging to each group include information on the gender and age of the remote audience members.
  • the audience terminal 200 When the parameter indicates the voice quality of a remote audience member belonging to each group, the audience terminal 200 reflects the gender and age in the synthesized voice, or processes the data of the superimposed voice using a known voice quality conversion technology. , it is possible to make the voice quality of the synthesized voice included in the superimposed voice similar to the voice quality of the original remote audience member. For example, the audience terminal 200 can reproduce what is called yellow cheering by women of a certain age who often participate in live concerts by male idols.
  • the audience terminal 200 When the parameter indicates a region, the audience terminal 200 holds a plurality of template cheer sounds depending on the nationality, and selects the template cheer sound to be used from among the plurality of template cheer sounds based on the parameter. Furthermore, the audience terminal 200 performs speech synthesis using a speech synthesis engine suitable for the language of the text information indicated by the parameter. By selecting a template cheer sound and performing voice synthesis based on the parameter indicating the region to which the remote audience belongs, the audience terminal 200 can present cheers tailored to the region to which the remote audience belongs.
  • Third embodiment based on the communication status between the spectator terminal 200 of the remote spectator at the transmission destination and the server 100, and the computing resources of the spectator terminal 200 of the remote spectator at the transmission destination, and the processing described in the second embodiment are switched.
  • the server 100 receives attribute information including information indicating the communication status between the audience terminal 200 of the destination remote audience and the server 100 and information indicating the computational resources of the audience terminal 200 of the destination remote audience. Switch actions based on information.
  • FIG. 35 is a diagram illustrating an example of encoded reaction data addressed to a remote spectator as a transmission destination, which is switched depending on the communication status.
  • encoded reaction data of remote spectators 1 to 4 and remote spectators 6 to 36 which are transmitted to the spectator terminal of remote spectator 5, is shown.
  • the server 100 is assigned to a group other than group 1 to which remote audience member 5 belongs, as explained in the modification of the first embodiment.
  • processing is performed with priority given to reducing traffic.
  • the total bit rate of the coded reaction data group addressed to remote audience 5 is 704 kbps.
  • the reaction data included in the encoded reaction data may be replaced with parameters.
  • the server 100 adds up, for each group, the coded reaction data of the remote audience members assigned to groups other than group 1 to which the remote audience members 5 belong. By doing so, processing is performed with priority given to reducing the amount of calculation on the spectator terminal 200.
  • the server 100 receives the encoding response of the remote audience members belonging to group 1, as described in the first embodiment.
  • the data is transmitted without changing its encoding quality, and the encoding quality of the encoding reaction data of remote spectators belonging to groups other than group 1 is lowered and transmitted.
  • the total bit rate of the encoded reaction data group addressed to the remote audience 5 is 962 kbps.
  • the server 100 passes through all the encoded reaction data and transmits it to the spectator terminal of the remote spectator 5. Passing through all encoded reaction data does not reduce traffic, but allows high-quality, low-delay reaction audio to be presented to the remote audience 5.
  • the server 100 can maximize the quality of the reaction audio without causing failure of the entire remote live system.
  • the configuration of the remote live system according to the third embodiment is basically the same as the configuration according to the first embodiment and the configuration according to the second embodiment.
  • the contents of the reaction voice processing selection process in the server 100 and the contents of the reaction voice summing process in the audience terminal 200 change dynamically depending on the communication status and computing resources of the audience terminal of the remote audience member at the transmission destination.
  • FIG. 36 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processes using a program.
  • the server 100, the audience terminal 200, and the performer terminal 300 are configured by, for example, a PC having a configuration similar to that shown in FIG. 36.
  • a CPU (Central Processing Unit) 501, a ROM (Read Only Memory) 502, and a RAM (Random Access Memory) 503 are interconnected by a bus 504.
  • An input/output interface 505 is further connected to the bus 504.
  • an input section 506 consisting of a keyboard, a mouse, etc.
  • an output section 507 consisting of a display, speakers, etc.
  • a storage section 508 consisting of a hard disk or non-volatile memory
  • a communication section 509 consisting of a network interface, etc.
  • a drive 510 for driving a removable medium 511.
  • the CPU 501 executes the series of processes described above by, for example, loading a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executing it. will be held.
  • a program executed by the CPU 501 is installed in the storage unit 508 by being recorded on a removable medium 511 or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, or may be a program in which processing is performed in parallel or at necessary timing such as when a call is made. It may also be a program that is carried out.
  • a system refers to a collection of multiple components (devices, modules (components), etc.), regardless of whether all the components are located in the same casing. Therefore, multiple devices housed in separate casings and connected via a network, and a single device with multiple modules housed in one casing are both systems. .
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • a decoding unit that decodes encoded data
  • An information terminal comprising: an output control unit that outputs audio based on the decoded audio information from an output device used by a user.
  • the attribute information is information indicating a position in virtual space of another user who uses the transmission source terminal.
  • the attribute information is information indicating a degree of relationship between the user and another user who uses the transmission source terminal.
  • the amount of audio information is determined based on at least one of the attribute information about the source terminal or the communication status of the information terminal.
  • the audio information includes the audio of a group to which a plurality of other users each using the transmission source terminal belong, or a parameter representing the audio of the other users. Any of (1) to (4) above.
  • the parameter is an average value of the loudness of the other users or the group, calculated for each predetermined frame.
  • the information terminal according to (5), wherein the parameter is information indicating a result of voice recognition of the voice of the other user or the group.
  • the parameter is text information acquired as a result of the voice recognition, or a preset number for the text information.
  • the information terminal according to any one of (5) to (9), wherein the parameter is information indicating the size of the group.
  • the information terminal according to (10), wherein the information indicating the size of the group includes information indicating the number of the other users who belong to the group.
  • the parameter is information indicating the quality of the voice of the other user or the group.
  • the parameter is regional information indicating a region to which the other user belongs.
  • the regional information includes an IP address of the transmission source terminal.
  • the audio information indicates audio emitted by another user using the transmission source terminal in response to the content;
  • the information terminal according to any one of (1) to (15), wherein the output control unit superimposes audio based on the audio information on the main audio of the content and causes the output device to output the superimposed audio.
  • to the computer decoding encoded data in which audio information indicating audio collected by one or more transmission source terminals is encoded with an amount of information based on attribute information regarding the transmission source terminal; A program for executing processing for outputting audio based on the audio information from an output device used by a user.
  • 100 server 101 receiving unit, 102 reaction audio processing selection unit, 103 transmitting unit, 111 converting unit, 112 data selection unit, 200 audience terminal, 201 reaction audio recording unit, 202 transmitting unit, 203 receiving unit, 204 Decryption unit, 205 Reaction audio summation unit, 206 audio superimposition unit, 207 output control unit, 211 decoding unit, 212 summation/convolution unit, 220 microphone, 221 display, 300 performer terminal, 301 reception unit, 302 reaction audio synthesis unit Calculation section, 303 Output control section, 320 speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本技術は、他者の音声をより好適に提示することができるようにする情報端末、情報処理方法、プログラム、および情報処理装置に関する。 本技術の情報端末は、1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、送信元の端末に関する属性情報に基づいて情報量が決定された符号化データを復号する復号部と、復号された音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部とを備える。本技術は、例えば、リモート観客がライブ会場外から参加可能なリモートライブを実現するシステムに適用することができる。

Description

情報端末、情報処理方法、プログラム、および情報処理装置
 本技術は、情報端末、情報処理方法、プログラム、および情報処理装置に関し、特に、他者の音声をより好適に提示することができるようにした情報端末、情報処理方法、プログラム、および情報処理装置に関する。
 近年、多数のリモートライブイベントが開催されている。リモートライブでは、音楽や演劇などのエンターテインメントが行われるライブ会場から、演者や観客の様子を撮影した映像データが、ライブ会場外の観客(以下、リモート観客と呼ぶ)が使用する端末にリアルタイムで配信される。
 例えば、リモート観客の反応を示す音声(以下、反応音声と呼ぶ)を各リモート観客の端末で録音し、録音された反応音声の音声データを他のリモート観客に相互に送信するシステムが提案されている。このシステムにおいては、他のリモート観客の反応音声が、コンテンツの主となる演者の音声に重畳されて提示されることで、ライブイベントに対するリモート観客の参加意識が誘起され、リモート観客が熱気を感じたり、一体感を得たりすることができる。
 しかしながら、このシステムでは、多数の音声データが各リモート観客の端末に送信されるため、各端末に送信される音声データの情報量が肥大化し、通信のトラフィックが圧迫される可能性がある。
 トラフィックの圧迫を防ぐために、例えば、特許文献1には、仮想空間内でのリモート観客同士の距離などに基づいて優先度を設定し、優先度の低い音声データを送信しないことで、各端末に送信される音声データの数を減少させる方法が開示されている。また、特許文献2,3には、仮想空間内における各リモート観客の位置と仮想空間の音響特性に基づいて、仮想空間内の各観客の位置で聞こえる反応音声をサーバでシミュレーションした結果を、1つの音声データとして各端末に送信することで、各端末に送信される音声データの情報量を減らす方法が開示されている。
特開2020-004392号公報 特開2012-129800号公報 特開2010-232860号公報
 しかしながら、特許文献1に開示された方法では、仮想空間内で遠くにいる他のリモート観客の反応データの優先度が低く設定され、近くにいる他のリモート観客の反応データの優先度が高く設定されるため、リモート観客は、近くにいる他のリモート観客の反応音声しか聞くことができない。したがって、リモート観客が、大規模なライブイベントに特有の大人数の歓声から盛り上がりや熱気を感じられなくなり、ライブイベントに対する参加意識を誘起することができなくなる可能性がある。
 また、特許文献2,3に開示された方法では、リモートライブイベントに参加するリモート観客の人数が多くなると、シミュレーションに係るサーバでの演算量が飛躍的に増加し、演算量の増加に付随して反応音声の遅延も増加する。反応音声の遅延が増加すると、リモート観客同士が言葉によってコミュニケーションをとることが困難となり、近くにいる友人と一緒に盛り上がるといったライブイベントの醍醐味が失われてしまう。
 本技術はこのような状況に鑑みてなされたものであり、他者の音声をより好適に提示することができるようにするものである。
 本技術の第1の側面の情報端末は、1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、前記送信元の端末に関する属性情報に基づいて情報量が決定された前記符号化データを復号する復号部と、復号された前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部とを備える。
 本技術の第1の側面の情報処理方法は、情報端末が、1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる。
 本技術の第1の側面のプログラムは、コンピュータに、1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる処理を実行させる。
 本技術の第2の側面の情報処理装置は、1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データを、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換する変換部と、変換済みの符号化データを前記送信先の端末に送信する送信部とを備える。
 本技術の第1の側面においては、1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データが復号され、前記音声情報に基づく音声が、ユーザが使用する出力機器から出力される。
 本技術の第2の側面においては、1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データが、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換され、変換済みの符号化データが前記送信先の端末に送信される。
本技術を適用したリモートライブシステムの一実施形態の構成例を示す図である。 伝送されるデータの例を示す図である。 伝送されるデータの例を示す図である。 リモートライブの様子の例を示す図である。 多数のリモート観客がリモートライブに参加する場合にサーバから送信されるデータの例を示す図である。 優先度に基づいて反応データが送信される場合の反応音声の聞こえ方の例を示す図である。 演者端末と観客端末が受信する情報と送信する情報の例を示す図である。 リモート観客同士の距離に基づく、符号化反応データの情報量の決定方法の例を示す図である。 仮想空間内の各観客の位置で聞こえる反応音声をシミュレーションするサーバの処理について説明する図である。 従来のリモートライブシステムにおける反応音声の遅延の例を示す図である。 本技術のサーバが行う処理について説明する図である。 リモート観客同士の距離に基づく処理により生じる遅延の例を示す図である。 グループごとに反応音声をシミュレーションするサーバの処理について説明する図である。 本技術のサーバが行うグループごとの処理について説明する図である。 従来の観客端末における処理について説明する図である。 本技術の観客端末における処理について説明する図である。 仮想空間内の各リモート観客の位置の例を示す図である。 サーバの構成例を示すブロック図である。 反応音声加工選択部の詳細な構成例を示すブロック図である。 サーバが行う処理について説明するフローチャートである。 図20のステップS2において行われる反応音声加工選択処理について説明するフローチャートである。 データ選択処理と符号化品質変更処理で用いられるテーブルの例を示す図である。 観客端末の構成例を示すブロック図である。 反応音声合算部の詳細な構成例を示すブロック図である。 観客端末が行う録音処理について説明するフローチャートである。 観客端末が行う再生処理について説明するフローチャートである。 図26のステップS33において行われる反応音声合算処理について説明するフローチャートである。 演者端末の構成例を示すブロック図である。 観客端末に送信される符号化反応データ群の例を示す図である。 データ選択処理と符号化品質変更処理で用いられるテーブルの他の例を示す図である。 観客端末に送信される符号化反応データ群の例を示す図である。 符号化反応データに含まれるパラメータ化前の音声データと、パラメータに基づくテンプレートの音声データとの例を示す図である。 サーバにおける反応音声の音声認識の結果の例を示す図である。 観客端末における反応音声合算処理の流れを示す図である。 通信状況に応じて切り替えられる、送信先のリモート観客宛の符号化反応データの例を示す図である。 コンピュータのハードウェアの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.リモートライブシステムの概要
 2.第1の実施の形態
 3.第2の実施の形態
 4.第3の実施の形態
<1.リモートライブシステムの概要>
 図1は、本技術を適用したリモートライブシステムの一実施形態の構成例を示す図である。
 リモートライブシステムでは、演奏などのエンターテインメントが行われるライブ会場から、演者の様子を撮影した映像などが、ライブ会場外のリモート観客が使用する観客端末にリアルタイムで配信されるリモートライブが実現される。
 演者は、ライブイベントで演目を実施する人物である。なお、ライブ会場で行われるエンターテインメントは、ライブコンサートに限定されず、演劇やスポーツ、トークライブであってもよい。リモート観客は、ライブイベントにライブ会場外から遠隔で参加する人物である。リモート観客は、コンテンツの主となるライブ会場の映像や音声を視聴しながら、拍手をしたり、歓声を揚げたりといった、コンテンツに対する反応を行う。
 図1の例においては、自宅やカラオケボックスなどの施設内といったライブ会場外の場所でリモートライブに参加しているリモート観客A,Bが示されている。例えばリモート観客Aは、タブレット端末を使用してライブイベントに参加し、リモート観客Bは、PC(Personal Computer)を使用してライブイベントに参加している。
 なお、リモート観客(ユーザ)の数は2人に限定されるものではなく、実際には、さらに多くのリモート観客がライブイベントに参加する。
 図1のリモートライブシステムは、リモートライブの運営者により管理されるサーバ100に対して、演者側が使用する演者端末とリモート観客A,Bが使用する観客端末がインターネットなどのネットワークを介して接続されることにより構成される。なお、演者端末とサーバ100が無線または有線により直接接続されるようにしてもよい。
 ライブ会場では、演者の様子を撮影した映像である配信映像の映像データがビデオカメラなどにより取得される。また、ライブ会場では、演者の音声などを集音した音声である配信音声の音声データがミキサなどにより取得される。以下では、ビデオカメラやミキサなどの収録装置は、演者端末に含まれるとする。なお、ライブ会場にも観客がいる場合、演者とともに観客の様子を撮影した配信映像、および、演者の音声とともに観客の歓声などを集音した配信音声が、ライブ会場で取得されるようにしてもよい。
 観客端末においては、リモート観客A,Bそれぞれがコンテンツに対する反応として発した歓声、拍手、合いの手などの音声(以下では、反応音声と称する)を集音した結果の音声データ(以下では、反応データと称する)が、反応音声を示す音声情報として取得される。
 リモートライブの期間中、図2の太線の矢印で示すように、ライブ会場で取得された配信映像の映像データと配信音声の音声データは、符号化された後にサーバ100に送信される。また、細線の矢印で示すように、観客端末において取得された反応データは、符号化された後にサーバ100に送信される。
 サーバ100は、図3の実線の矢印で示すように、配信映像の映像データと配信音声の音声データを各観客端末に送信する。また、サーバ100は、二重線の矢印で示すように、反応データを演者端末と各観客端末に送信する。具体的には、サーバ100は、全てのリモート観客の反応データを演者端末に送信する。また、サーバ100は、リモート観客A以外の反応データを、リモート観客Aが使用する観客端末に送信し、リモート観客B以外の反応データを、リモート観客Bが使用する観客端末に送信する。
 演者端末は、サーバ100から送信されてきた各リモート観客の反応データを受信し、必要に応じて反応音声を加工して演者に提示する。
 各観客端末は、サーバ100から送信されてきた配信映像の映像データと配信音声の音声データを受信し、配信映像と配信音声をリモート観客に提示する。例えば、配信映像は図示せぬディスプレイで表示され、配信音声は図示せぬスピーカから出力される。ディスプレイやスピーカは、リモート観客が使用する出力機器である。また、各観客端末は、サーバ100から送信されてきた複数の反応データを受信し、必要に応じて反応音声を加工する。各観客端末は、反応音声を配信音声に重畳してリモート観客に提示する。
 なお、反応データとともに、リモート観客の顔や動きの様子を撮影した映像の映像データや、リモート観客の触覚に関する触覚情報のデータが観客端末により取得され、他の観客端末に送信されるようにしてもよい。例えば、他のリモート観客の観客端末において、リモート観客を撮影した映像に基づいて、リモート観客が動く様子を示すアバタの映像が提示される。また、触覚情報に基づいて、仮想空間内でのリモート観客同士のハイタッチなどの身体の触れ合いや、リモート観客がペンライトを把持する強さ、ペンライトを振る激しさなどが再現される。
 図4は、リモートライブの様子の例を示す図である。
 リモートライブに参加する多数のリモート観客は、例えば、図4のAに示すように、仮想空間内の所定の位置に配置される。多数のリモート観客のうちの例えばリモート観客U1には、配信映像が提示されるとともに、同じ仮想空間内に配置された他のリモート観客の反応音声が配信音声に重畳されて提示される。
 反応音声が配信音声に重畳されてリモート観客U1に提示されることにより、リモート観客U1は、図4のBの吹き出し#1で示す演者の配信音声に加えて、吹き出し#2で示す仮想空間内にいる他のリモート観客の反応音声を同時に聞くことができる。
 ライブ会場内で参加するような通常のライブイベントでは、観客にとって、他の観客の歓声や動きといった反応を知ることが、熱気を感じたり、一体感を得たりするために重要な要素となる。しかしながら、ライブ会場外で参加する従来のリモートライブイベントでは、他のリモート観客の反応がリモート観客に伝わりにくい。
 本技術のリモートライブシステムにおいては、配信音声に加えて反応音声がリモート観客に提示されることで、ライブイベントに対するリモート観客の参加意識が誘起され、リモート観客が熱気を感じたり、一体感を得たりすることが可能となる。
 図5は、多数のリモート観客がリモートライブに参加する場合にサーバ100から送信されるデータの例を示す図である。
 多数のリモート観客がリモートライブに参加する場合、リモートライブシステムでは、図5の二重線の太矢印で示すように、多数の反応データが演者端末と各観客端末に送信されるため、演者端末と各観客端末に送信される反応データの情報量が肥大化し、通信のトラフィックが圧迫される可能性がある。例えば、特許文献1乃至特許文献3には、トラフィックの圧迫を防ぐための方法が開示されている。
 図6は、優先度に基づいて反応データが送信される場合の反応音声の聞こえ方の例を示す図である。
 特許文献1に開示された方法では、例えば、図6の上側に示すように、仮想空間内でリモート観客U1の周りにいる多数の他のリモート観客の反応データのうち、遠くにいる他のリモート観客の反応データの優先度が低く設定され、近くにいる他のリモート観客の反応データの優先度が高く設定される。
 この場合、リモート観客U1にとって遠くにいる他のリモート観客の反応データは、リモート観客U1の観客端末に送信されないため、リモート観客U1にとって遠くにいる他のリモート観客の反応音声はリモート観客U1に提示されない。一方、リモート観客U1の近くにいる他のリモート観客の反応データが、リモート観客U1の観客端末に送信されて、リモート観客U1の近くにいる他のリモート観客の反応音声だけがリモート観客U1に提示される。
 したがって、リモート観客U1は、図6の下側の破線で示される、遠くにいる他のリモート観客の反応音声を聞くことができず、図6の下側において灰色で塗られている、リモート観客U1の近くにいる他のリモート観客の反応音声だけを聞くことになる。近くにいる他のリモート観客の反応音声だけが提示されると、大規模なライブイベントに特有の大人数の歓声から感じられるはずの盛り上がりや熱気をリモート観客U1が感じられなくなり、ライブイベントに対する参加意識を誘起することができなくなる可能性がある。
 そこで、本技術のリモートライブシステムは、各観客端末に送信される反応データの情報量を、各観客端末に関する属性情報に基づいて変化させることで、トラフィックの圧迫を防ぐ。
 図7は、演者端末と観客端末が受信する情報と送信する情報の例を示す図である。
 図7の例では、演者端末は、全てのリモート観客の反応データを受信し、配信映像の映像データと配信音声の音声データを送信する。
 リモート観客Aが使用する観客端末は、サーバ100から送信されてくる配信映像の映像データと配信音声の音声データを受信するとともに、サーバ100から送信されてくるリモート観客A以外のリモート観客の反応データを受信する。リモート観客Aが使用する観客端末は、リモート観客Aの反応データをサーバ100に送信するとともに、当該観客端末に関する属性情報をサーバ100に送信する。
 リモート観客Bが使用する観客端末は、サーバ100から送信されてくる配信映像の映像データと配信音声の音声データを受信するとともに、サーバ100から送信されてくるリモート観客B以外のリモート観客の反応データを受信する。リモート観客Bが使用する観客端末は、リモート観客Bの反応データをサーバ100に送信するとともに、当該観客端末に関する属性情報をサーバ100に送信する。
 なお、配信映像の映像データや配信音声の音声データは、配信映像の映像データや配信音声の音声データが符号化されたデータである配信データの形で、リモートライブシステムを構成する各装置間においてやり取りされる。また、反応データは、反応データが符号化されたデータである符号化反応データの形で、リモートライブシステムを構成する各装置間においてやり取りされる。
 属性情報は、例えば、観客端末を使用するリモート観客の仮想空間上の位置を示す情報である。属性情報がリモート観客の仮想空間上の位置を示す場合、サーバ100は、属性情報に基づいて、リモート観客同士の仮想空間上の距離を算出し、リモート観客同士の距離に基づいて、各観客端末に送信する符号化反応データの情報量を変化させる。
 図8は、リモート観客同士の距離に基づく、符号化反応データの情報量の決定方法の例を示す図である。
 まず、サーバ100は、図8の上側に示す仮想空間内でリモート観客U1の周りにいる多数の他のリモート観客を、図8の下側に示すように、例えば4つのグループに分ける。
 図8の例では、リモート観客U1とリモート観客U1の近くにいる他のリモート観客とにより構成されるグループA1、および、リモート観客U1から遠くにいる他のリモート観客により構成されるグループA2乃至A4に、リモート観客がそれぞれ分けられている。
 リモート観客U1に反応データを送信する場合、サーバ100は、グループA1の優先度を高く設定し、グループA1に所属するリモート観客の符号化反応データの符号化品質を高くする。一方、サーバ100は、グループA2乃至A4の優先度を低く設定し、グループA2乃至A4に所属するリモート観客の符号化反応データの符号化品質を低くする。なお、グループA2乃至A4に所属するリモート観客の符号化反応データが、グループごとに1つの符号化反応データとして合算されるようにしてもよい。
 符号化品質に応じて生じる音質の劣化が分かりやすいグループA1のリモート観客の符号化反応データが高品質で送信されることで、リモート観客U1は音質の劣化を感じにくくなる。音質の劣化が分かりにくいグループA2乃至A4のリモート観客の反応データが低品質で送信されることで、全てのリモート観客の符号化反応データを同じ品質で送信する場合よりも、リモート観客U1の観客端末に送信される符号化反応データの合計の情報量を大幅に削減することが可能となる。
 リモート観客の人数が多いほど、リモート観客U1にとって遠くにいるリモート観客とみなされるリモート観客の人数が増えるため、より多くの符号化反応データの符号化品質を低くすることができる。したがって、リモートライブイベントの規模が大きくなるほど、各観客端末に送信される符号化反応データにおいて削減される情報量も大きくなる。
 上述したように、特許文献1に開示された方法では、遠くにいる他のリモート観客の符号化反応データがリモート観客U1の観客端末に送信されないが、本技術のリモートライブシステムでは、遠くにいる他のリモート観客の符号化反応データも、符号化品質を変化させることで情報量を削減しながら、リモート観客U1の観客端末に送信される。観客端末は、遠くにいる多数のリモート観客の歓声が聞こえる状況を再現することができるため、リモート観客U1は、多数のリモート観客の歓声から熱気を感じたり、一体感を得たりすることが可能となる。
 一方、特許文献2,3に開示された方法では、リモートライブイベントに参加するリモート観客の人数が多くなると、シミュレーションに係るサーバでの演算量が飛躍的に増加してしまうため、特許文献2,3に開示された方法が適用されたリモートライブシステムは、大規模なライブイベントでの利用に適していない。
 図9は、仮想空間内の各観客の位置で聞こえる反応音声をシミュレーションするサーバ100Aの処理について説明する図である。
 以下では、N人のリモート観客がリモートライブイベントに参加するとして説明を行う。図9の例では、3人のリモート観客A乃至Cがリモートライブイベントに参加している(N=3)。
 図9に示すように、まず、サーバ100AにはN人分の符号化反応データが入力され、サーバ100AはN人分の符号化反応データをデコードする。したがって、サーバ100Aでは、N回のデコードが行われる。
 次に、サーバ100Aは、仮想空間内の各観客の位置で聞こえる反応音声をシミュレーションする処理をN人分だけ行う。
 図9の例では、サーバ100Aは、リモート観客Bの反応データとリモート観客Cの反応データを合算する処理、および、各リモート観客の位置関係に応じた音響特性の畳み込み処理を行うことで、リモート観客Aに提示するための1つの反応データを生成する。同様に、サーバ100Aは、リモート観客Cの反応データとリモート観客Aの反応データを合算する処理、および、各リモート観客の位置関係に応じた音響特性の畳み込み処理を行うことで、リモート観客Bに提示するための1つの反応データを生成する。また、サーバ100Aは、リモート観客Aの反応データとリモート観客Bの反応データを合算する処理、および、各リモート観客の位置関係に応じた音響特性の畳み込み処理を行うことで、リモート観客Cに提示するための1つの反応データを生成する。
 つまり、1人分のシミュレーション処理につき、N-1人分の反応データを合算し、N-1回の畳み込み処理を行う必要がある。したがって、N人分のシミュレーション処理において、N(N-1)回の合算処理と畳み込み処理が行われる。Nの2乗のオーダーで合算処理と畳み込み処理が行われるため、Nが大きくなると、サーバ100Aの演算量が膨大になる。
 多数の反応データを用いてシミュレーション処理を行うためには、サーバ100Aにおいて各符号化反応データを受信するまでの待ち時間が必要となり、再生時の反応音声の遅延も増加してしまう。
 特許文献2,3に開示された方法では、図10の円で囲んで示される、例えば、リモート観客U1と同じ仮想空間内にいるリモート観客U1を除く全てのリモート観客の反応データが合算されて、リモート観客U1の観客端末に送信される。全てのリモート観客の反応データが合算されるため、仮想空間上のリモート観客同士の距離に関わらず、図10の吹き出しに示すように、全てのリモート観客の反応音声に大きな遅延が発生する可能性がある。
 反応音声の遅延が増加すると、リモート観客同士が言葉によってコミュニケーションをとることが困難となり、近くにいる友人と一緒に盛り上がるといったライブイベントの醍醐味が失われてしまう。
 本技術のリモートライブシステムにおいては、各観客装置に送信される符号化反応データの情報量を、各観客端末に関する属性情報に基づいて変化させることで、特許文献2,3に開示された方法よりも演算量が大幅に少なくなり、遅延についても実用上問題なくなるように対処することが可能となる。
 属性情報は、例えば、観客端末を使用するリモート観客の仮想空間上の位置を示す情報、および、各観客端末とサーバ100の間の通信状況を示す情報を含む。サーバ100は、属性情報に基づいて、例えば、符号化反応データを合算するか否かや符号化反応データの符号化品質を変更するか否かを動的に変更させる。
 図11は、本技術のサーバ100が行う処理について説明する図である。図11の例では、リモート観客Aの観客端末とサーバ100の間の通信状況が不良であり、リモート観客Bおよびリモート観客Cの各観客端末とサーバ100の間の通信状況が良好であるとする。
 図11に示すように、サーバ100にはN人分の符号化反応データが入力される。サーバ100は、符号化反応データのデコードと畳み込み処理を行わない。デコードと畳み込み処理を行わない代わりに、サーバ100は、符号化反応データに対して、デコード処理の全てを行わずに可能な合算処理や符号化品質の変更処理を行う。
 以降で述べる合算処理や符号化品質の変更処理では、符号化反応データを完全にデコードしてPCMデータの形式にする必要がない。したがって、これらの処理は、符号化反応データを完全にデコードしPCMデータを得てから、畳み込みを行う従来の方法に比較して少ない演算量で実施できる。本明細書では使用する符号化方法を規定しないが、一般的なオーディオ符号化方法を想定して、合算処理と符号化品質の変更処理について具体例を述べる。
 まず、符号化品質の変更処理について述べる。通常、符号化反応データは、例えばハフマン符号を用いてエントロピー符号化が行われた“符号化ビット列”となっている。そこで、サーバ100は、この符号化ビット列の復号だけを行い、得られたデータに対してビット割り当て量の再調整を行って再量子化し、エントロピー符号化を再度行うようにする。この方法により、少ない演算量で符号化品質の変更(制限)ができる。
 合算処理についても、サーバ100は、音声符号化のデコード処理における周波数領域から時間領域への変換(例えばIMDCT(Inverse Modified Discrete Cosine Transform))を行う前の段階までを実施し、周波数領域で合算してから、量子化・エントロピー符号化を行うようにする。この方法により、合算する符号化反応データの数だけ必要であった周波数領域から時間領域への変換処理、および、時間領域から周波数領域への変換(例えば、MDCT(Modified Discrete Cosine Transform)など)の処理を省略することができる。
 図11の例では、リモート観客Aの観客端末とサーバ100の間の通信状況が不良であるため、サーバ100は、リモート観客Bの符号化反応データとリモート観客Cの符号化反応データを合算する処理、および、合算済みの符号化反応データの符号化品質を変更する処理を行うことで、リモート観客Aに提示するための1つの符号化反応データを生成する。
 また、リモート観客Bの観客端末とサーバ100の間の通信状況が良好であるため、サーバ100は、リモート観客Cの符号化反応データとリモート観客Aの符号化反応データをそのまま、リモート観客Bに送信される符号化反応データとする。リモート観客Cの観客端末とサーバ100の間の通信状況が良好であるため、サーバ100は、リモート観客Aの符号化反応データとリモート観客Bの符号化反応データをそのまま、リモート観客Cに送信される符号化反応データとする。なお、図11の例では、リモート観客Bとリモート観客Cに送信される符号化反応データの数は2つであるが、実際には、各リモート観客に送信される符号化反応データの数は動的に変化する。
 サーバ100において、全ての符号化反応データに対して、デコード処理の全てを行わずに可能な合算処理や符号化品質の変更処理が行われることで、サーバ100の演算負荷を小さくすることができる。サーバ100においては、通信状況が良好な観客端末に対して、他の観客端末から送信されてきた符号化反応データがパススルーされて送信される(低遅延パス)ため、デコードや合算、符号化品質の変更などの処理による演算量の増加や遅延の発生を抑えることができる。
 以上のように、本技術のリモートライブシステムは、特許文献2,3に開示された方法が適用されたリモートライブシステムよりも低演算量かつ低遅延なシステムとなる。
 なお、リモート観客同士の距離に基づいて、反応音声を合算するか否かや反応音声の符号化品質を変更するか否かを動的に変更させることも可能である。
 図12は、リモート観客同士の距離に基づく処理により生じる遅延の例を示す図である。
 図12の例でも、リモート観客U1とリモート観客U1の近くにいる他のリモート観客とにより構成されるグループA1と、リモート観客U1から遠くにいる他のリモート観客により構成されるグループA2乃至A4とに、リモート観客がそれぞれ分けられている。
 リモート観客U1に符号化反応データを送信する場合、サーバ100は、グループA1に所属するリモート観客の符号化反応データに対して、例えば合算と符号化品質の変更を行わない。したがって、グループA1に所属するリモート観客の反応音声は、リモート観客U1に低遅延で提示される。一方、サーバ100は、例えば、グループA2乃至A4に所属するリモート観客の符号化反応データをグループごとに合算し、合算済みの符号化反応データの符号化品質を変更する。したがって、グループA2乃至A4に所属するリモート観客の反応音声は、遅延が生じた状態でリモート観客U1に提示される。
 同じグループに所属するリモート観客の反応音声は、低遅延かつ高品質でリモート観客U1に提示されるため、リモート観客U1は、同じグループに所属するリモート観客と言葉によるコミュニケーションをとることが可能となる。なお、仮想空間内で遠くにいるリモート観客の反応音声の遅延は大きいが、通常、言葉によるコミュニケーションをとるのは近くにいる人に限られるため、近くにいるリモート観客の反応音声の遅延を小さくできれば十分である。
 以上のように、サーバ100においては、1台または複数台の観客端末により集音された音声を示す音声情報としての符号化反応データの情報量が、少なくとも送信元の観客端末に関する属性情報に基づいて決定され、符号化品質の変更などによって情報量が調整された符号化反応データが符号化反応データとして送信先の各リモート観客の観客端末に送信される。
 具体的には、サーバ100において、仮想空間内で遠くにいるリモート観客の符号化反応データの送信については、合算や符号化品質変更によってトラフィックを削減する効果が遅延の発生よりも優先され、近くにいる限られたリモート観客の符号化反応データの送信については、遅延を低減させることと高品質なデータを送信することとがトラフィックの削減よりも優先される。サーバ100は、遅延によるデメリットを最小限としながらトラフィックを削減することが可能となる。
 なお、リモート観客をグループに分け、グループごとに1つの反応データを生成することで、サーバの演算量を低減させることが考えられる。
 図13は、グループごとに反応音声をシミュレーションするサーバ100Aの処理について説明する図である。図13の例では、リモート観客Aがグループ1に所属し、リモート観客Bとリモート観客Cがグループ2に所属している。
 グループごとに反応音声をシミュレーションする場合、図13に示すように、サーバ100Aは、リモート観客Bの反応データとリモート観客Cの反応データを合算する処理、および、グループ1を代表する位置とリモート観客B,Cの位置との関係に応じた音響特性の畳み込み処理を行うことで、グループ1に所属するリモート観客Aに提示するための1つの反応データを生成する。同様に、サーバ100Aは、リモート観客A乃至Cの反応音声を合算する処理、および、グループ2を代表する位置とリモート観客A乃至Cの位置の関係に応じた音響特性の畳み込み処理を行うことで、グループ2に所属するリモート観客B,Cに提示するための1つの反応データを生成する。
 合算処理や畳み込みの処理がグループごとに1回で済むため、サーバ100Aの演算量を削減することができる。しかし、N人分の符号化反応データをデコードして、反応データの合算処理や畳み込み処理を行うといった1人分のシミュレーション処理は、送信先のリモート観客ごとに反応音声をシミュレーションする場合の1人分のシミュレーション処理と変わらないため、遅延の低減には効果がない。
 また、この方法では、各リモート観客に対して、自身の反応音声も含まれた音声が提示されることになるので、違和感の要因となりうる。この理由を説明する。
 図13に示したように、グループ2(リモート観客B,C)に提示するための反応データは、リモート観客Aの反応データに加えて、リモート観客B,C自身の反応データも用いて生成される。なぜなら、グループ2に提示するための反応データは、リモート観客Bに提示するための反応データと、リモート観客Cに提示するための反応データを兼ねているからである。
 換言すれば、リモート観客Bに提示される音声にはリモート観客Cの反応音声が必要であり、リモート観客Cに提示される音声にはリモート観客Bの反応音声が必要であり、そのような条件を1つの反応データで同時に満たすためには、リモート観客B,C両者の反応データを用いて、グループ2に提示するための反応データを生成する必要がある。
 一方、グループ1にはリモート観客Aしか所属してしない。したがって、グループ1(リモート観客A)に提示するための反応データを、リモート観客A自身の反応データを用いずに生成することも可能である。
 しかし、リモート観客をグループに分ける目的は、演算量の低減であるから、通常、グループ2のように、各グループには最低2人以上のリモート観客が含まれることが望ましい。したがって、この方法では、各リモート観客に対して、通常、自分自身の音声も含まれた反応音声が提示されてしまう。
 図14は、本技術のサーバ100が行うグループごとの処理について説明する図である。図14の例でも、図13と同様に、リモート観客Aがグループ1に所属し、リモート観客Bとリモート観客Cがグループ2に所属している。
 図14に示すように、サーバ100にはN人分の符号化反応データが入力される。サーバ100は、符号化反応データのデコードと畳み込み処理を行わない。デコードと畳み込み処理を行わない代わりに、サーバ100は、符号化反応データに対して、デコード処理の全てを行わずに可能な合算処理や符号化品質の変更処理をグループごとに行う。
 図14の例では、サーバ100は、グループ2に所属するリモート観客Bの符号化反応データとリモート観客Cの符号化反応データを合算する処理、および、合算済みの符号化反応データの符号化品質を変更する処理を行うことで、グループ1に所属するリモート観客Aに提示するための1つの符号化反応データを生成する。
 また、サーバ100は、グループ1に所属するリモート観客Aの符号化反応データを合算する処理、および、合算済みの符号化反応データの符号化品質を変更する処理を行うことで、グループ2に所属するリモート観客B,Cに提示するための1つの符号化反応データを生成する。
 さらに、サーバ100は、リモート観客Cの符号化反応データをそのまま、リモート観客Bに送信される符号化反応データとし、リモート観客Bの符号化反応データをそのまま、リモート観客Cに送信される符号化反応データとする。
 本技術のサーバ100においては、入力された符号化反応データのデコード処理を全て行わずに合算処理などが行われるため、サーバ100の演算量は少ない。したがって、グループごとに符号化反応データを処理する場合でも、特許文献2に開示された方法と比較して、本技術のサーバ100の演算負荷は低くなる。また、本技術のサーバ100は、同一グループに所属する他のリモート観客の符号化反応データを、そのまま送ることができるので、各リモート観客に対して、自分自身の音声も含まれた反応音声が提示されてしまうといった、上述した問題を回避できる。
 サーバ100においては、シミュレーション処理が行われずに、複数の符号化反応データが観客端末に送信されるため、観客端末においても、本技術と特許文献2に開示された方法とで異なる処理が行われる。
 図15は、従来の観客端末における処理について説明する図である。
 特許文献2に開示された方法における観客端末は、図15に示すように、サーバ100Aから送信されてきた符号化反応データを受信し、符号化反応データを復号して取得された反応データで示される重畳音声を配信音声に重畳して再生する。重畳音声は、仮想空間内で聞こえる複数の他のリモート観客の反応音声をシミュレーションした結果の音声である。
 シミュレーション済みの重畳音声のデータがサーバ100Aから送信されてくるため、観客端末は、重畳音声をそのまま再生することになる。したがって、観客端末における他のリモート観客の反応音声の再生方法の自由度は低い。
 図16は、本技術の観客端末における処理について説明する図である。図16の例では、リモート観客A乃至Cのうちのリモート観客Aが使用する観客端末について説明する。
 本技術の観客端末は、図16の#11に示すように、リモート観客Bの符号化反応データとリモート観客Cの符号化反応データを受信し、これらの符号化反応データを復号して取得された反応データに対して合算処理と畳み込み処理を行う。すなわち、本技術の観客端末では、特許文献2に開示された方法におけるサーバ100Aで行われていたシミュレーション処理に相当する処理が行われる。したがって、観客端末は、受信した1つ以上の反応データに基づいて重畳音声のデータをローカルで生成する。換言すれば、本技術のリモートライブシステムでは、シミュレーション処理が、サーバ100内で一括して行われるのではなく、各観客端末で分散して行われる。
 合算処理と畳み込み処理を行った後、観客端末は、図16の#12に示すように、重畳音声を配信音声に重畳して再生する。
 反応データに対する合算処理と畳み込み処理が観客端末で行われるため、観客端末は、例えば、図16の吹き出しに示すように、リモート観客Aにとってリモート観客Cは友人なので、リモート観客Bの反応音声よりもリモート観客Cの反応音声を大きく出力させるといったように、リモート観客ごとに反応音声の大きさを調整することができる。このように、本技術を用いることで、観客端末における他のリモート観客の反応音声の再生方法の自由度を高めることができる。
 以上のように、本技術のリモートライブシステムは、各観客端末に送信される符号化反応データの情報量を変化させることで、サーバ100における演算量や遅延時間を状況に応じて調整し、高い臨場感や、熱気、一体感などを演出するような反応音声をリモート観客に提示することが可能となる。
<2.第1の実施の形態>
・実施の形態の概要
 第1の実施の形態においては、サーバ100に送信されてきた各リモート観客の符号化反応データが、リモート観客ごとのビットストリームとして各観客端末に送信される。
 図17は、仮想空間内の各リモート観客の位置の例を示す図である。
 以下では、36人のリモート観客1乃至36が1つの仮想空間内にいるとする。図17に示される1乃至36の数字は、リモート観客1乃至36のそれぞれに割り当てられた観客IDを示す。図17においては、1乃至36の数字を囲む矩形の位置が各リモート観客の仮想的な位置となる。リモート観客1乃至36は、例えば、各位置に配置される座席に仮想的に座ってライブコンサートを鑑賞する。
 リモート観客1乃至36のそれぞれは、仮想空間内の位置に基づいて例えば4つのグループに分けられる。図17の例では、リモート観客1乃至9がグループ1に分けられ、リモート観客10乃至18がグループ2に分けられる。また、リモート観客19乃至27がグループ3に分けられ、リモート観客28乃至36がグループ4に分けられる。
 例えばリモート観客5の観客端末に、リモート観客5以外のリモート観客の符号化反応データを送信する場合、サーバ100は、リモート観客5が所属するグループであるグループ1に所属するリモート観客1乃至4とリモート観客6乃至9の8人分の符号化反応データを符号化品質(ビットレート)を変換せずに送信する。例えば、観客端末からサーバ100に送信される符号化反応データの元々のビットレートが64kbpsであるとすると、リモート観客5の観客端末に送信されるリモート観客1乃至4とリモート観客6乃至9の符号化反応データのビットレートも64kbpsとなる。
 また、サーバ100は、グループ2に所属するリモート観客10乃至18の9人分の符号化反応データのビットレートを例えば64kbpsから20kbpsに変換し、ビットレートが変換された符号化反応データをリモート観客5の観客端末に送信する。
 サーバ100は、グループ3に所属するリモート観客19乃至27の9人分の符号化反応データのビットレートを例えば64kbpsから20kbpsに変換し、ビットレートが変換された符号化反応データをリモート観客5の観客端末に送信する。
 サーバ100は、グループ4に所属するリモート観客28乃至36の9人分の符号化反応データのビットレートを例えば64kbpsから10kbpsに変換し、ビットレートが変換された符号化反応データをリモート観客5の観客端末に送信する。
 以上のように、サーバ100は、送信先のリモート観客が所属するグループと同じグループに割り当てられたリモート観客の符号化反応データを高品質で送信する、または、符号化品質を変更せずに送信する。また、サーバ100は、送信先のリモート観客が所属するグループ以外のグループに所属するリモート観客の符号化反応データを低品質で送信する。
 元々の各符号化反応データのビットレートが64kbpsであるとすると、全ての符号化反応データをそのまま各観客端末に送信する場合、各観客端末に送信される符号化反応データの情報量の合計は、64×35=2240[kbps]になる。サーバ100は、他のグループに所属するリモート観客の符号化反応データを低品質に変換することで、各観客端末に送信される符号化反応データの情報量の合計を、64×8+20×9+20×9+10×9=962[kbps]に抑えることができる。
・サーバの構成
 図18は、サーバ100の構成例を示すブロック図である。
 図18に示すように、サーバ100は、受信部101、反応音声加工選択部102、および送信部103により構成される。
 受信部101は、ネットワークを介して複数の観客端末のそれぞれから送信されてきた符号化反応データと属性情報を受信する。また、受信部101は、演者端末から送信されてきた配信データを受信する。
 受信部101は、各端末に関する属性情報を反応音声加工選択部102と送信部103に供給する。図18においては、属性情報が反応音声加工選択部102に補助情報として入力されることが破線の矢印で示される。後述する他のブロックにおいても、同様に、属性情報が各構成に補助情報として入力されることが破線の矢印で示される。受信部101は、各リモート観客の符号化反応データを反応音声加工選択部102に供給し、配信データを送信部103に供給する。
 図18においては、複数の情報が各構成でやり取りされることが太線の矢印で示される。後述して説明する他のブロック図においても同様である。
 反応音声加工選択部102は、受信部101から供給された各リモート観客の符号化反応データと、各観客端末に関する属性情報とに基づいて、各観客端末に送信される符号化反応データ群を生成し、送信部103に供給する。リモート観客の数がN人である場合、各観客端末に対して最大でN-1人分の符号化反応データが送信されるため、反応音声加工選択部102は、最大で合計N(N-1)人分の符号化反応データを生成する。
 送信部103は、受信部101から供給された属性情報と配信データ、および、反応音声加工選択部102から供給された符号化反応データ群を、ネットワークを介して観客端末に送信する。また、送信部103は、符号化反応データ群をネットワークを介して演者端末に送信する。なお、配信データ、属性情報、および符号化反応データ群は、ネットワークを介した送信に適した形式に変換されて、観客端末や演者端末に送信される。
 図19は、反応音声加工選択部102の詳細な構成例を示すブロック図である。
 図19に示すように、反応音声加工選択部102は、複数の変換部111A乃至111Zとデータ選択部112を備える。
 図19においては、説明の都合上、反応音声加工選択部102に26個の変換部111A乃至111Zが設けられるとしたが、実際には、変換部111A乃至111Zは、観客端末に送信される符号化反応データの符号化品質のパターンの数だけ設けられる。なお、以下では、変換部111A乃至111Zをそれぞれ区別する必要がない場合、単に変換部111と称する。
 変換部111は、各観客の符号化反応データと、各端末に関する属性情報とを受信部101から取得し、各符号化反応データの符号化品質を、変換部111A乃至111Zにそれぞれ対応する符号化品質に変換する。例えば、変換部111Aは、符号化反応データの符号化品質を10kbpsに変換し、変換部111Bは、符号化反応データの符号化品質を20kbpsに変換する。
 例えば10kbps,20kbps,…といったように、符号化反応データがM個のパターンに変換される場合、N個の符号化反応データが入力されるとすると、複数の変換部111によって、合計でMN個の符号化反応データが生成され、データ選択部112に供給される。なお、例えば、前述したように10kbps, 20kbps,…といったように10kbpsごとに昇順でビットレートが変化するパターンであってもよいし、ビットレートの値がユーザによって任意に設定されてもよい。また、各端末からの属性情報や符号化反応データ、通信状況やサーバ100の電力状況等に応じてビットレートのパターンが変更されるようにしてもよい。
 データ選択部112は、変換済みのMN個の符号化反応データを変換部111A乃至111Zから取得し、符号化品質を変換していない(パススルーされた)符号化反応データを受信部101から取得する。また、データ選択部112は、各観客端末に関する属性情報を受信部101から取得し、属性情報に基づいて、各観客端末に送信される符号化反応データを、変換済みの符号化反応データおよび変換されていない符号化反応データの中から選択して割り振る。データ選択部112は、リモート観客1乃至Nのそれぞれ宛の符号化反応データ群を送信部103に供給する。
 データ選択部112には、MN個の変換済みの符号化反応データとN個の変換されていない符号化反応データが入力されるため、合計でMN+N個の符号化反応データが入力される。一方、N台の各観客端末に対して最大でN-1人分の符号化反応データが送信されるため、データ選択部112からは、最大でN(N-1)個の符号化反応データが出力される。通常、リソースの観点からM<<Nとされるため、M+2<Nとなる。M+2<Nは、N(M+1)<N(N-1)のように変形できるため、データ選択部112においては、入力されるデータの数よりも出力されるデータの数の方が大きくなる。
・サーバの動作
 図20のフローチャートを参照して、以上のような構成を有するサーバ100が行う処理について説明する。
 ステップS1において、受信部101は、データ受信処理を行い、演者端末から送信されてきた配信データ、および、観客端末から送信されてきた各リモート観客の符号化反応データと各観客端末に関する属性情報とを受信する。
 ステップS2において、反応音声加工選択部102は、反応音声加工選択処理を行う。反応音声加工選択処理により、各リモート観客の反応音声と各観客端末に関する属性情報とに基づいて符号化品質が変更された加工済みの符号化反応データが生成され、加工済みの符号化反応データおよび未加工の符号化反応データ群が各リモート観客宛に割り振られる。反応音声加工選択処理の詳細は、図21を参照して後述する。
 ステップS3において、送信部103は、データ送信処理を行い、配信データ、各リモート観客宛の符号化反応データ群、および各観客端末に関する属性情報の一部または全部を、各観客端末に送信する。また、送信部103は、加工済みの符号化反応データと未加工の符号化反応データの少なくともいずれかを含む各リモート観客の符号化反応データと、各端末に関する属性情報の一部または全部とを、演者端末に送信する。なお、各観客端末に関する属性情報は、仮想空間上での各リモート観客の位置の変化量が閾値よりも大きい場合などに限定して送信されるようにしてもよい。
 次に、図21のフローチャートを参照して、図20のステップS2において行われる反応音声加工選択処理について説明する。
 ステップS11において、反応音声加工選択部102は、反応音声取得処理を行い、受信部101により受信された各リモート観客の符号化反応データと各端末に関する属性情報とを取得する。
 ステップS12において、変換部111は、符号化品質変更処理を行い、各リモート観客の符号化反応データの符号化品質を、変換部111に対応する符号化品質に変換して、加工済みの符号化反応データを生成する。符号化品質変更処理により生成される加工済みの符号化反応データの符号化品質のパターンは、後述するテーブルに基づいて決定される。例えば、リモート観客1の符号化反応データの符号化品質を10kbpsと20kbpsに変換して2つの加工済みの符号化反応データを生成するといったように、生成される符号化反応データの符号化品質のパターンの方針がテーブルに基づいて決定される。
 ステップS13において、変換部111は、符号化反応データの全ての変換が完了したか否かを判定する。
 符号化反応データの全ての変換が完了していないとステップS13において判定された場合、ステップS12に戻り、必要な全てのパターンの符号化品質に変換された符号化反応データが揃うまで、符号化品質変更処理が継続される。
 一方、符号化反応データの全ての変換が完了したとステップS13において判定された場合、処理はステップS14に進む。ステップS14において、データ選択部112は、データ選択処理を行い、各リモート観客宛の符号化反応データを選択する。
 ステップS14においてデータ選択処理が行われた後、図20のステップS2に戻り、それ以降の処理が行われる。
 なお、ステップS14における各リモート観客宛の符号化反応データの選択は、符号化品質変更処理において用いられるテーブルと同じテーブルに基づいて行われる。このテーブルは、例えば、各リモート観客の観客端末に対してどの符号化反応データを送信するかといったように、送信先のリモート観客の観客IDと、送信先のリモート観客宛の符号化反応データ群に含まれる各符号化反応データの符号化品質のパターンとの対応関係を示す。
 図22は、データ選択処理と符号化品質変更処理で用いられるテーブルの例を示す図である。図22では、図17を参照して説明したグループ1乃至4に所属するリモート観客1乃至36のうちのリモート観客5,13,23,36宛の符号化反応データについての情報が記載されている。なお、図22では、説明の都合上、各グループに所属する代表的な4人のリモート観客宛の符号化反応データについての情報のみが抜粋されて記載されているが、実際には、全ての送信先のリモート観客宛の符号化反応データについての情報がテーブルに記載される。
 図22の例では、送信先のリモート観客が所属するグループに割り当てられた他のリモート観客の符号化反応データは符号化品質を変換しないというルールでテーブルが設定されている。また、送信先のリモート観客が所属するグループに隣接するグループに割り当てられた他のリモート観客の符号化反応データの符号化品質を20kbpsに変換し、送信先のリモート観客が所属するグループの対角線上にあるグループに割り当てられた他のリモート観客の符号化反応データの符号化品質を10kbpsに変換するというルールでテーブルが設定されている。なお、符号化品質のパターンはこれに限らず、任意に設定されてよい。例えばユーザによって任意の変換パターンが設定されてもよい。また、送信先のリモート観客が所属するグループに割り当てられた他のリモート観客の符号化反応データは符号化品質が適宜変更されるようにしてもよい。
 したがって、テーブルには、グループ1に所属するリモート観客5宛の符号化反応データとして、グループ1に所属するリモート観客1乃至4とリモート観客6乃至9の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客5宛の符号化反応データとして、グループ2に所属するリモート観客10乃至18の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。
 テーブルには、リモート観客5宛の符号化反応データとして、グループ3に所属するリモート観客19乃至27の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客5宛の符号化反応データとして、グループ4に所属するリモート観客28乃至36の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。
 また、テーブルには、グループ2に所属するリモート観客13宛の符号化反応データとして、グループ1に所属するリモート観客1乃至9の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客13宛の符号化反応データとして、グループ2に所属するリモート観客10乃至12とリモート観客14乃至18の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。
 テーブルには、リモート観客13宛の符号化反応データとして、グループ3に所属するリモート観客19乃至27の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客13宛の符号化反応データとして、グループ4に所属するリモート観客28乃至36の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。
 テーブルには、グループ3に所属するリモート観客23宛の符号化反応データとして、グループ1に所属するリモート観客1乃至9の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客23宛の符号化反応データとして、グループ2に所属するリモート観客10乃至18の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。
 テーブルには、リモート観客23宛の符号化反応データとして、グループ3に所属するリモート観客19乃至22とリモート観客24乃至27の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客23宛の符号化反応データとして、グループ4に所属するリモート観客28乃至36の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。
 テーブルには、グループ4に所属するリモート観客36宛の符号化反応データとして、グループ1に所属するリモート観客1乃至9の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客36宛の符号化反応データとして、グループ2に所属するリモート観客10乃至18の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。
 テーブルには、リモート観客36宛の符号化反応データとして、グループ3に所属するリモート観客19乃至27の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客36宛の符号化反応データとして、グループ4に所属するリモート観客28乃至35の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。
 反応音声加工選択部102は、各リモート観客の符号化反応データに基づいて、符号化品質が10kbpsと20kbpsに変換された2種類の加工済みの符号化反応データを生成し(M=2)、加工済みの符号化反応データおよび未加工の符号化反応データを適宜コピーするだけで、各観客端末に送信される全て(N(N-1)個)の符号化反応データを用意することができる。
 属性情報に基づいてリモート観客のグループ分けを行った上で設定されたテーブルに基づいて、必要な符号化品質の符号化反応データだけが符号化品質変更処理により生成されるため、変換部111が処理を実行する回数が少なくなり、サーバ100の演算量も少なくすることができる。
 なお、観客端末に関する属性情報に、観客端末を使用するリモート観客にとっての他のリモート観客に対する親密度(関係度)を示す情報が含まれるようにしてもよい。親密度は、例えば、観客端末を使用するリモート観客にとって、他のリモート観客が友人であるか否かや、どの程度親しい友人であるかなどを示す。属性情報が親密度を示す場合、サーバ100においては、例えば、親密度が高いリモート観客が同じグループになるように、各リモート観客のグループ分けが行われる。
 以上では、各観客端末に送信される符号化反応データの符号化品質の選択方法について述べたが、演者端末に送信される符号化反応データの符号化品質を同様の方法で選択することも可能である。
 演者端末に送信される符号化反応データの符号化品質を選択する場合、例えば、リモートライブイベントに対して特に高い熱意を持ったリモート観客を、演者と同じグループに所属させた状態で、テーブルが設定される。同じグループに所属するリモート観客の符号化反応データは、符号化品質を変更せずに、または、高品質で演者端末に送信されるため、高い熱意を持ったリモート観客の反応音声を優先的に演者に提示することが可能となる。
 高い熱意を持ったリモート観客を判断するために、属性情報に、例えばリモートライブイベントや物販に対する課金額などの情報が含まれるようにしてもよい。また、高い熱意を持ったリモート観客を判断するために、属性情報に、例えばコンテンツに対するリモート観客の聴取態度に関する情報が含まれるようにしてもよい。リモート観客の聴取態度は、例えば、ライブイベントの期間中のリモート観客の視線の動きを各観客端末でセンシングした結果や、歓声のタイミングが適切であるか否かを各観客端末で計測した結果に基づいて取得される。
 また、観客端末に関する属性情報に、各ユーザに関する情報が含まれていてもよい。各ユーザに関する情報とは、例えば、あるユーザが難聴や視覚障がいを有するということを示すデータや、年齢、性別、人種、といったものであってもよい。さらに、補聴器・集音器の装着履歴といったデータや、補聴器・集音器そのもののデバイスデータ、各ユーザの生体データ(体温、脈拍、心拍等)等が属性情報に含まれてもよい。
 これらの情報を属性情報として含めることで、例えば、視覚障がいを持つユーザを優先的に演者と同じグループに所属させた状態にし、演者との一体感を感じてもらい、障がい者でもライブを臨場感高く楽しむことができ、アクセシビリティ向上が期待できる。
 また、外国籍のユーザが参加した場合などでは、当該外国籍ユーザの観客端末に提供される映像データや音声データに、当該外国籍ユーザの母国語での字幕や副音声を重畳させるようにしてもよい。
 例えば、ユーザが補聴器または集音器を使用するユーザであった場合、当該ユーザに提示される音声データは、補聴処理がされることが望ましいが、通常の補聴処理の場合は音声が機械的に増幅されてライブの臨場感ある雰囲気が損なわれてしまう可能性がある。そこで、あるユーザが補聴器または集音器を使用する場合は、ユーザが自身の補聴器・集音器のデバイスデータや聴力データ等をサーバ100に送信する事で、当該ユーザに個人化された補聴処理がされてもよい。
 生体データに関しては、例えばユーザがライブで使用するペンライト等に体温センサ、脈拍センサ等の各種センサを設けることで容易に取得が可能である。このようにして取得された生体データに基づいてユーザの盛り上がり具合を推定し、盛り上がり度が高いユーザ(例えば体温・脈数ともに上昇しているユーザ等)に対しては、当該観客端末から当該ユーザに提示する反応データの音圧を上げる、映像データの輝度を上げる、といった処理を行う事で、当該ユーザの盛り上がり度を維持し、ライブの満足度を向上させることが期待できる。
・観客端末の構成
 観客端末は、主に以下の機能を有する。
 ・観客の反応を集音し、符号化反応データとしてサーバ100に送信する。
 ・配信データを受信し、配信データを復号して配信映像と配信音声を取得する。
 ・他のリモート観客の符号化反応データ群を受信し、重畳音声を生成する。
 ・配信映像を提示し、配信音声に重畳音声を重畳して提示する。
 観客端末として用いられる具体的な機器は、ユースケースやリモート観客が所持している機器に応じて変わり得る。以下に、観客端末の例を述べる。
(1)観客端末としての機能をスマートフォンまたはタブレット端末に搭載する例
 本技術のリモートライブシステムをサポートするライブ配信アプリケーションをスマートフォンまたはタブレット端末にあらかじめインストールすることで、スマートフォンまたはタブレット端末を観客端末として使用することができる。
 スマートフォンまたはタブレット端末に搭載されたマイクロフォンなどを使用して、リモート観客の反応音声の録音が行われる。有線または無線でスマートフォンまたはタブレット端末に接続された外部のマイクロフォンを使用して、リモート観客の反応音声の録音が行われるようにしてもよい。
 また、スマートフォンまたはタブレット端末に搭載または接続されたディスプレイなどにより配信映像が提示され、スマートフォンまたはタブレット端末に搭載または接続されたスピーカや、インナーイヤーヘッドホン、ヘッドホン、補聴器、集音器などにより配信音声と重畳音声が提示される。
(2)観客端末としての機能をPCまたはゲーム機に搭載する例
 本技術のリモートライブシステムをサポートするライブ配信アプリケーションをPCまたはゲーム機にあらかじめインストールすることで、PCまたはゲーム機を観客端末として使用することができる。
 PCまたはゲーム機に接続されたコントローラやヘッドマウントディスプレイなどに搭載されたマイクロフォンなどを使用して、リモート観客の反応音声の録音が行われる。有線または無線でPCまたはゲーム機に接続された外部のマイクロフォンを使用して、リモート観客の反応音声の録音が行われるようにしてもよい。
 また、PCまたはゲーム機に接続されたディスプレイやヘッドマウントディスプレイなどにより配信映像が提示され、PCまたはゲーム機に接続されたスピーカや、インナーイヤーヘッドホン、ヘッドホン、補聴器、集音器などにより配信音声と重畳音声が提示される。
 なお、演者端末としての機能も、上述した機器と同様の機器によって実現することができる。重畳音声が演者にとって演目の邪魔にならないことが望ましく、重畳音声が配信音声に混入しないことが望ましいため、例えば演者が装着するIEM(In Ear Monitor)などのインナーイヤーヘッドホンにより、重畳音声が演目の音声とミキシングされて提示されることが望ましい。
 図23は、観客端末200の構成例を示すブロック図である。
 図23に示すように、観客端末200は、反応音声録音部201、送信部202、受信部203、復号部204、反応音声合算部205、音声重畳部206、および出力制御部207により構成される。
 反応音声録音部201は、例えば観客端末200に接続されたマイクロフォン220を使用してリモート観客の反応音声を録音する。反応音声録音部201は、反応音声を示す反応データをサーバ100への送信に適した形式で符号化して符号化反応データを生成し、送信部202に供給する。
 送信部202は、反応音声録音部201から供給された符号化反応データと、観客端末200自体に関する属性情報とを、ネットワークを介してサーバ100に送信する。属性情報は、例えば、観客端末200に設けられた入力部(図示せず)を用いてリモート観客によりあらかじめ入力されたり、外部の装置などから観客端末200により取得されたりする。
 受信部203は、ネットワークを介してサーバ100から送信されてきた配信データを受信し、復号部204に供給する。また、受信部203は、ネットワークを介してサーバ100から送信されてきた他のリモート観客の符号化反応データ群と他の観客端末200に関する属性情報とを受信し、反応音声合算部205に供給する。
 復号部204は、受信部203から供給された配信データを復号して配信映像の映像データと配信音声の音声データを取得し、音声重畳部206に供給する。
 反応音声合算部205は、受信部203から供給された他のリモート観客の符号化反応データ群と、他の観客端末200に関する属性情報とに基づいて、配信音声に重畳される音声である重畳音声のデータを生成し、音声重畳部206に供給する。
 音声重畳部206は、復号部204から供給された配信映像の映像データを、リモート観客に提示する映像である提示映像の映像データとしてそのまま出力制御部207に供給(パススルー)する。また、音声重畳部206は、復号部204から供給された配信音声に対して、反応音声合算部205から供給された重畳音声を重畳して、リモート観客に提示される音声である提示音声の音声データを生成し、出力制御部207に供給する。
 出力制御部207は、音声重畳部206から供給された提示映像を例えば観客端末200に接続されたディスプレイ221に表示させ、音声重畳部206から供給された提示音声をディスプレイ221に設けられたスピーカから出力させる。なお、提示映像の映像データや提示音声の音声データは、HDMI(登録商標)出力フォーマットや公知の映像データフォーマット、公知の音声データフォーマットで出力制御部207からディスプレイ221などに出力される。
 図24は、反応音声合算部205の詳細な構成例を示すブロック図である。
 図24に示すように、反応音声合算部205は、復号部211、合算・畳み込み部212を備える。
 復号部211は、受信部203から供給された他のリモート観客の符号化反応データ群を復号して、他のリモート観客の反応データ群を生成する。復号部211は、観客端末200における反応音声の再生に関する情報である設定情報に基づいて、リモート観客にとって反応音声を聞かなくてもよい他のリモート観客の符号化反応データを復号せずに破棄することも可能である。設定情報は、例えば、リモート観客の友人である他のリモート観客の音声を大きく聞きたい、所定の他のリモート観客の反応音声を聞かなくてもよいといったように、反応音声に対するリモート観客の嗜好の情報を含む。
 復号部211は、復号済みの他のリモート観客の反応データ群を合算・畳み込み部212に供給する。
 合算・畳み込み部212は、復号部211から供給された復号済みの反応データ群、受信部203から供給された他の観客端末200に関する属性情報、および設定情報に基づいて、他のリモート観客の反応音声をまとめた重畳音声のデータを生成する。
 具体的には、合算・畳み込み部212は、他の観客端末200に関する属性情報で示される他のリモート観客の位置に基づく音響特性を、属性情報に対応する反応データに畳み込み、音響特性が畳み込まれた反応データ同士を合算する。畳み込み処理と合算処理により、仮想空間内でリモート観客自身の位置で聞こえる他のリモート観客の反応音声が再現される。また、合算・畳み込み部212は、設定情報に基づいて、例えば、リモート観客1にとっての友人のリモート観客2の反応音声が大きく聞こえるように反応音声の大きさなどを調整する。
 合算・畳み込み部212は、生成した重畳音声のデータを音声重畳部206に供給する。
・観客端末の動作
 観客端末200においては、反応音声を録音するための録音処理、および、配信映像や、配信音声、反応音声をリモート観客に提示するための再生処理が、並行して実行される。
 図25のフローチャートを参照して、観客端末200が行う録音処理について説明する。
 ステップS21において、反応音声録音部201は、録音処理を行い、マイクロフォン220を使用して、観客端末200を使用するリモート観客の反応音声を録音し、PCM(Pulse Code Modulation)など公知の形式の反応データを生成する。
 ステップS22において、反応音声録音部201は、符号化処理を行い、反応データを符号化し、符号化反応データを生成する。反応音声録音部201は、サーバ100への送信に適した形式に符号化反応データを変換する。
 ステップS23において、送信部202は、データ送信処理を行い、符号化反応データと、観客端末200自体に関する属性情報とを、ネットワークを介してサーバ100に送信する。
 次に、図26のフローチャートを参照して、観客端末200が行う再生処理について説明する。
 ステップS31において、受信部203は、データ受信処理を行い、ネットワークを介してサーバ100から送信されてきた配信データ、他のリモート観客の符号化反応データ群、および他の観客端末200に関する属性情報を受信する。
 ステップS32において、復号部204は、復号処理を行い、配信データを復号し、配信映像の映像データと配信音声の音声データを取得する。
 ステップS33において、反応音声合算部205は、反応音声合算処理を行う。反応音声合算処理により、他のリモート観客の符号化反応データと、他の各観客端末に関する属性情報とに基づいて、重畳音声のデータが生成される。反応音声合算処理の詳細については、図27を参照して後述する。
 ステップS34において、音声重畳部206は、音声重畳処理を行い、配信音声に重畳音声を重畳して提示音声の音声データを生成する。また、音声重畳部206は、配信映像の映像データをそのまま提示映像の映像データとしてパススルーする。
 ステップS35において、出力制御部207は、出力処理を行い、提示映像をディスプレイ221に表示させ、提示音声をディスプレイ221に設けられたスピーカから出力させる。
 観客端末200は、以上の録音処理と再生処理を定期的に実行し続けることで、リモート観客に配信映像、配信音声、および他のリモート観客の反応音声を提示しつつ、リモート観客自身の反応データを他のリモート観客に送信することができる。
 図27のフローチャートを参照して、図26のステップS33において行われる反応音声合算処理について説明する。
 ステップS51において、復号部211は、復号処理を行い、他のリモート観客の符号化反応データ群を全て復号して他のリモート観客の反応データ群を取得し、PCMなどの後段の畳み込み処理を実施可能な形式に反応データ群を変換する。符号化反応データ群が復号される際に、リモート観客にとって反応音声を聞かなくてもよい他のリモート観客の符号化反応データが復号されずに破棄されてもよい。
 ステップS52において、合算・畳み込み部212は、合算・畳み込み処理を行い、復号済みの反応データ群を合算する。反応データ群が合算される際に、設定情報に基づいて、特定のリモート観客の反応データの合算時の比率を高くする処理が行われるようにしてもよい。反応データ群が合算される際に、他の観客端末に関する属性情報に基づいて特定される仮想空間内のリモート観客間の位置関係に基づく音響特性を各反応音声に畳み込むことで、リモート観客が違和感を抱きにくい重畳音声のデータを生成することも可能である。
 ステップS52において合算・畳み込み処理が行われた後、図26のステップS33に戻り、それ以降の処理が行われる。
・演者端末の構成
 演者端末は、上述した観客端末が有する機能のうちの、主に以下の機能を有する。
 ・リモート観客の符号化反応データ群を受信し、重畳音声を生成する。
 したがって、演者端末の構成は、観客端末200の構成からいくつかの構成部を除いた構成となる。
 図28は、演者端末300の構成例を示すブロック図である。
 図28に示すように、演者端末300は、受信部301、反応音声合算部302、および出力制御部303により構成される。
 受信部301は、ネットワークを介してサーバ100から送信されてきたリモート観客の符号化反応データ群と各観客端末200に関する属性情報とを受信し、反応音声合算部302に供給する。
 反応音声合算部302は、受信部301から供給されたリモート観客の符号化反応データ群と、各観客端末200に関する属性情報とに基づいて重畳音声のデータを生成し、重畳音声のデータをそのまま提示音声の音声データとして出力制御部303に供給する。なお、演者端末300においては、重畳音声は配信音声に重畳されることなく演者に提示される。
 出力制御部303は、反応音声合算部302から供給された提示音声を、例えばライブ会場に設けられたスピーカ320から出力させる。なお、提示音声の音声データは、例えば(アナログ/デジタル)同軸出力フォーマットや公知の音声データフォーマットといった、スピーカ320やIEMなどの音声出力装置に入力可能な形式で出力制御部303から出力される。
 なお、反応音声合算部302の詳細な構成については、図24を参照して説明した反応音声合算部205の構成と同様であるため、説明を省略する。
 ただし、反応音声が演者に対して提示されることを考慮して、演者端末300の合算・畳み込み処理においては、観客端末200で用いられる音響特性と異なる音響特性が用いられることが望ましい。また、演者端末300の合算・畳み込み処理においては、リモートライブイベントに対して特に高い熱意を持った観客の反応データの合算時の比率を高くする処理が行われるようにしてもよい。また、障がいを有する観客や外国籍の観客の反応データの合算時の比率を高める処理が行われても良い。
・第1の実施の形態の変形例
 サーバ100の符号化品質変更処理において、送信先のリモート観客が所属するグループ以外のグループに割り当てられたリモート観客の符号化反応データをグループごとに合算することで、トラフィックをさらに削減することが可能となる。
 図29は、観客端末に送信される符号化反応データ群の例を示す図である。図29の例では、図17を参照して説明した場合と同様に、リモート観客1乃至36のそれぞれがグループ1乃至4に割り振られている。
 例えばリモート観客5の観客端末に、リモート観客5以外のリモート観客の符号化反応データを送信する場合、サーバ100は、リモート観客5が所属するグループであるグループ1に所属するリモート観客1乃至4とリモート観客6乃至9の8人分の符号化反応データを符号化品質を変換せずに送信する。例えば、観客端末からサーバ100に送信される符号化反応データの元々のビットレートが64kbpsであるとすると、リモート観客5の観客端末に送信されるリモート観客1乃至4とリモート観客6乃至9の符号化反応データのビットレートも64kbpsとなる。
 また、サーバ100は、グループ2に所属するリモート観客10乃至18の9人分の符号化反応データを合算して1つの符号化反応データとする。合算済みの符号化反応データのビットレートは例えば64kbpsとなる。
 サーバ100は、グループ3に所属するリモート観客19乃至27の9人分の符号化反応データを合算して1つの符号化反応データとする。合算済みの符号化反応データのビットレートは例えば64kbpsとなる。
 サーバ100は、グループ4に所属するリモート観客28乃至36の9人分の符号化反応データを合算して1つの符号化反応データとする。合算済みの符号化反応データのビットレートは例えば64kbpsとなる。
 元々の各符号化反応データのビットレートが64kbpsであるとすると、全ての符号化反応データをそのまま各観客端末に送信する場合、各観客端末に送信される符号化反応データの情報量の合計は、64×35=2240[kbps]になる。サーバ100は、他のグループに所属するリモート観客の符号化反応データを合算することで、各観客端末に送信される符号化反応データの情報量の合計を、64×8+64×3=704[kbps]に抑えることができる。
 図30は、データ選択処理と符号化品質変更処理で用いられるテーブルの他の例を示す図である。図30では、図29を参照して説明したグループ1乃至4に所属するリモート観客1乃至36のうちのリモート観客5,13,23,36宛の符号化反応データについての情報が記載されている。なお、図30では、説明の都合上、各グループに所属する代表的な4人のリモート観客宛のデータについての情報のみが抜粋されて記載されているが、実際には、全ての送信先のリモート観客宛の符号化反応データについての情報がテーブルに記載される。
 図30の例では、送信先のリモート観客が所属するグループに割り当てられた他のリモート観客の符号化反応データは符号化品質を変換しないというルールでテーブルが設定されている。また、送信先のリモート観客が所属するグループ以外のグループに割り当てられた他のリモート観客の符号化反応データをグループごとに合算し、合算済みの符号化反応データの符号化品質を64kbpsにするというルールでテーブルが設定されている。
 したがって、テーブルには、グループ1に所属するリモート観客5宛の符号化反応データとして、グループ1に所属するリモート観客1乃至4とリモート観客6乃至9の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客5宛の符号化反応データとして、グループ2に所属するリモート観客10乃至18の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。
 テーブルには、リモート観客5宛の符号化反応データとして、グループ3に所属するリモート観客19乃至27の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客5宛の符号化反応データとして、グループ4に所属するリモート観客28乃至36の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。
 また、テーブルには、グループ2に所属するリモート観客13宛の符号化反応データとして、グループ1に所属するリモート観客1乃至9の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客13宛の符号化反応データとして、グループ2に所属するリモート観客10乃至12とリモート観客14乃至18の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。
 テーブルには、リモート観客13宛の符号化反応データとして、グループ3に所属するリモート観客19乃至27の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客13宛の符号化反応データとして、グループ4に所属するリモート観客28乃至36の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。
 テーブルには、グループ3に所属するリモート観客23宛の符号化反応データとして、グループ1に所属するリモート観客1乃至9の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客23宛の符号化反応データとして、グループ2に所属するリモート観客10乃至18の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。
 テーブルには、リモート観客23宛の符号化反応データとして、グループ3に所属するリモート観客19乃至22とリモート観客24乃至27の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客23宛の符号化反応データとして、グループ4に所属するリモート観客28乃至36の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。
 テーブルには、グループ4に所属するリモート観客36宛の符号化反応データとして、グループ1に所属するリモート観客1乃至9の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客36宛の符号化反応データとして、グループ2に所属するリモート観客10乃至18の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。
 テーブルには、リモート観客36宛の符号化反応データとして、グループ3に所属するリモート観客19乃至27の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客36宛の符号化反応データとして、グループ4に所属するリモート観客28乃至35の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。
 反応音声加工選択部102は、各リモート観客の符号化反応データに基づいて、各グループに所属するリモート観客の符号化反応データを、グループごとに、デコード処理の全てを行わずに合算して符号化し(合算および64kbpsへの符号化を行う1種類のパターンしかないため、M=1となる)、合算された(加工済み)の符号化反応データおよび未加工の符号化反応データを適宜コピーするだけで、各観客端末に送信される全ての符号化反応データを用意することができる。
 符号化品質変更処理においては、リモート観客の符号化反応データ群をグループごとに合算するだけでよいため、変換部111が処理を実行する回数が少なくなり、サーバ100の演算量も少なくすることができる。
<3.第2の実施の形態>
 第2の実施の形態においては、第1の実施の形態の変形例のように、複数の他のリモート観客の符号化反応データがグループごとに合算された後、合算された符号化反応データを復号して取得される反応データの波形から抽出されたパラメータが、反応音声を示す音声情報として観客端末に送信される。反応データの波形から抽出されるパラメータは、各リモート観客の反応音声やグループの反応音声を表現する情報となる。合算後に符号化反応データのデコードを行うため、合算前に符号化反応データの完全なデコードを行うのに比較して、サーバ100は、少ない演算量でパラメータを抽出することができる。
 図31は、観客端末に送信される符号化反応データ群の例を示す図である。図31の例では、図17を参照して説明した場合と同様に、リモート観客1乃至36のそれぞれがグループ1乃至4に割り振られている。
 例えばリモート観客5の観客端末に、リモート観客5以外のリモート観客の符号化反応データを送信する場合、サーバ100は、リモート観客5が所属するグループであるグループ1に所属するリモート観客1乃至4とリモート観客6乃至9の8人分の符号化反応データを符号化品質を変換せずに送信する。例えば、観客端末からサーバ100に送信される符号化反応データの元々のビットレートが64kbpsであるとすると、リモート観客5の観客端末に送信されるリモート観客1乃至4とリモート観客6乃至9の符号化反応データのビットレートも64kbpsとなる。
 また、サーバ100は、グループ2に所属するリモート観客10乃至18の9人分の符号化反応データを合算して1つの符号化反応データとする。サーバ100は、合算済みの符号化反応データを復号して取得される反応データの波形からパラメータを取得し、パラメータを符号化して生成されたデータを符号化反応データとしてリモート観客5の観客端末に送信する。符号化反応データに含まれる反応データがパラメータに置き換えられるため、符号化反応データのビットレートは例えば1kbpsとなる。
 サーバ100は、グループ3に所属するリモート観客19乃至27の9人分の符号化反応データのビットレートを合算して1つの符号化反応データとする。サーバ100は、合算済みの符号化反応データを復号して取得される反応データの波形からパラメータを取得し、パラメータを符号化して生成されたデータを符号化反応データとしてリモート観客5の観客端末に送信する。符号化反応データに含まれる反応データがパラメータに置き換えられるため、符号化反応データのビットレートは例えば1kbpsとなる。
 サーバ100は、グループ4に所属するリモート観客28乃至36の9人分の符号化反応データのビットレートを合算して1つの符号化反応データとする。サーバ100は、合算済みの符号化反応データを復号して取得される反応データの波形からパラメータを取得し、パラメータを符号化して生成されたデータを符号化反応データとしてリモート観客5の観客端末に送信する。符号化反応データに含まれる反応データがパラメータに置き換えられるため、符号化反応データのビットレートは例えば1kbpsとなる。
 元々の各符号化反応データのビットレートが64kbpsであるとすると、全ての符号化反応データをそのまま各観客端末に送信する場合、各観客端末に送信される符号化反応データの情報量の合計は、64×35=2240[kbps]になる。サーバ100は、符号化反応データに含まれる反応データをパラメータに置き換えることで、各観客端末に送信される符号化反応データの情報量の合計を、64×8+1×3=515[kbps]に抑えることができる。
 リモートライブシステムは、第1の実施の形態の変形例のように、複数の他のリモート観客の符号化反応データがグループごとに合算された後、符号化反応データに含まれる反応データをパラメータに置き換えることで、第1の実施の形態の変形例よりもトラフィックをさらに削減することが可能となる。なお、合算されていないリモート観客ごとの符号化反応データに含まれる反応データがそれぞれパラメータに置き換えられるようにしてもよい。
 データ選択処理と符号化品質変更処理で用いられるテーブルは、図30を参照して説明したテーブルにおいて、送信先のリモート観客が所属するグループ以外のグループに割り当てられた他のリモート観客が合算された符号化反応データの符号化品質を64kbpsにするというルールの代わりに、合算された符号化反応データに含まれる反応データをパラメータ化するというルールで設定されたテーブルとなる。
 第2の実施の形態に係るリモートライブシステムの構成は、基本的には第1の実施の形態に係るリモートライブシステムの構成と同じである。なお、第2の実施の形態に係るサーバ100の反応音声加工選択処理と観客端末200の反応音声合算処理の内容が、第1の実施の形態に係るこれらの処理の内容と異なるため、反応音声加工選択処理と反応音声合算処理の異なる部分について具体的に説明する。
・反応データのフレームごとの平均値がパラメータとして用いられる例
 反応音声を示すパラメータとして、例えば、符号化反応データに含まれる反応データの振幅変動を示す情報が用いられる。振幅変動を示すパラメータは、例えば、フレームごとの平均値を含む。
 パラメータが平均値を示す場合、観客端末200が、当該パラメータに基づいて、テンプレートとして保持する歓声音の大きさを適宜変更して再生することで、複数の他のリモート観客(大衆)が歓声を揚げているか否かが再現される。他のリモート観客が歓声を揚げている否かが再現された反応音声を聞くことで、リモート観客は、他のリモート観客の盛り上がりを大まかに知ることができる。
 図32は、符号化反応データに含まれるパラメータ化前の音声データと、パラメータに基づくテンプレートの音声データとの例を示す図である。
 図32のAには、サーバ100において、同じグループに所属するリモート観客の符号化反応データが合算された符号化反応データを復号して取得された音声データの波形が示されている。
 サーバ100は、図32のAに示すように、符号化反応データに含まれる音声データの平均値をフレームごとに算出する。図32のAの例では、波形の一部をそれぞれ囲む破線の矩形の横の長さがフレーム長を示し、縦の長さが平均値を示す。
 平均値の算出方法は規定されないが、例えば、符号化反応データに含まれる音声データの平均値Aは、下式(1)で算出される。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、x(n)は、合算済みの反応データの1フレーム分の波形を示し、T[サンプル]はフレーム長を示す。
 通常、音声の符号化は数ms乃至100ms程度のフレーム単位で行われるため、サーバ100は、1フレーム毎に、符号化反応データに含まれる反応データを、平均値を示すパラメータに置き換えることで、反応データをそのまま符号化して送信する場合と比較して、符号化反応データの情報量を大幅に削減することが可能となる。
 一方、図32のBには、観客端末200において、複数の他のリモート観客の反応音声として提示される歓声音のテンプレートの音声データの波形が示されている。
 まず、観客端末200は、サーバ100から送信されてきた符号化反応データを復号し、反応データの平均値Aを取得する。観客端末200は、歓声音のテンプレート(以下では、テンプレート歓声音と称する)の音声データをあらかじめ保持しており、テンプレート歓声音の音声データを、複数のリモート観客の反応音声が合算された反応データの代わりとする。
 観客端末200は、テンプレート歓声音の音声データの平均値Atemplateが、反応データの平均値Aと一致するように、テンプレート歓声音の大きさを調整する。1フレーム分のテンプレート歓声音の音声データの波形をxtemplate(n)とすると、平均値Atemplateは、下式(2)で示される。
Figure JPOXMLDOC01-appb-M000002
 観客端末200は、下式(3)で示すように、元々の波形xtemplate(n)に、平均値Aと平均値Atemplateの比率を積算することで、図32のBに示すように、フレームごとの平均値が調整されたテンプレート歓声音の音声データの波形y(n)を生成する。図32のBの例では、波形の一部をそれぞれ囲む破線の矩形の横の長さがフレーム長Tを示し、縦の長さが平均値Aを示す。
Figure JPOXMLDOC01-appb-M000003
 なお、波形xtemplate(n)に積算される値(平均値Aと平均値Atemplateの比率)をフレームの境界で急に変動させると、最終的な波形y(n)が不連続となり、音質が低下することがある。音質の低下を防ぐために、観客端末200は、公知の方法を用いて、波形y(n)を滑らかに遷移させることが望ましい。例えば、観客端末200は、通常の音声の符号化で実施されるオーバーラップ処理によって、不連続が目立たないようにテンプレート歓声音を再生することができる。
 なお、観客端末200に送信されるパラメータに、リモートライブの規模を示す情報が含まれるようにしてもよい。リモートライブの規模を示すパラメータは、例えば、各グループに所属するリモート観客の人数を示す情報を含む。パラメータがリモートライブの規模を示す場合、観客端末200は、規模に応じたテンプレート歓声音をあらかじめ複数保持しておき、複数のテンプレート歓声音の中から、使用するテンプレート歓声音を属性情報に基づいて選択する。
 また、観客端末200が、符号化反応データを復号して取得される平均値に基づいて、複数のテンプレート歓声音の中から、使用するテンプレート歓声音を選択することも可能である。
・反応音声の音声認識の結果がパラメータとして用いられる例
 反応音声を示すパラメータとして、例えば、反応音声の音声認識の結果が用いられる。
 パラメータが音声認識の結果を示す場合、観客端末200が、当該パラメータに基づいて合成音声の音声データを生成し、合算する。観客端末200は、合算された合成音声を出力することで、複数のリモート観客が同時に声援などを発する様子を再現することができる。
 図33は、サーバ100における反応音声の音声認識の結果の例を示す図である。
 サーバ100は、同じグループに所属するリモート観客の符号化反応データが合算された符号化反応データを復号して反応データを取得し、公知の音声認識技術を用いて、図33の吹き出しに示すように、反応データで示される反応音声に含まれる言葉を示すテキスト情報を取得する。ここでは、テキスト情報が、反応音声を表現するパラメータとなる。図33の例では、「アンコール!」のテキスト情報が取得されている。
 テキスト情報として、意味のある言葉を取得できなかった場合、サーバ100は、意味のある言葉を取得できなかった旨を示す情報をテキスト情報の代わりとする。
 サーバ100は、テキスト情報が符号化されたデータを、加工済みの符号化反応データとして観客端末200に送信する。また、サーバ100は、各グループに所属するリモート観客の人数を示す情報を含む属性情報も観客端末200に送信する。
 図34は、観客端末200における反応音声合算処理の流れを示す図である。
 まず、観客端末200は、サーバ100から送信されてきた符号化反応データを復号し、図34の左側に示すように、テキスト情報T1と属性情報を取得する。
 次に、観客端末200は、#21に示すように、テキスト情報T1に基づいて、公知の音声合成技術を用いて、「アンコール!」と発話した合成音声の音声データを生成する。観客端末200は、性別、年齢などの音声合成におけるパラメータを様々に変更して音声合成を行うことで、1つのグループに所属するリモート観客の数と同じ数の合成音声の音声データを生成する。性別、年齢などを様々に変更して音声合成が行われるため、多種多様なバリエーションの合成音声が生成される。
 図34の例では、60代男性が「アンコール!」と発話した音声を再現する合成音声の音声データAD1、20代女性が「アンコール!」と発話した音声を再現する合成音声の音声データAD2、および、30代男性が「アンコール!」と発話した音声を再現する合成音声の音声データAD3が生成されている。
 なお、1つのグループに所属するリモート観客の数と同じ回数だけ音声合成を行うのではなく、音声合成により生成された数人分の合成音声をベースとして、位相をわずかにずらす、ピッチを変更するなどの加工を行うことで、1つのグループに所属するリモート観客の数と同じ数の合成音声の音声データが生成されるようにしてもよい。この方法を用いることで、観客端末200の演算量を低減させることができる。
 次に、観客端末200は、#22に示すように、合成音声の音声データAD1乃至AD3を対象として合算・畳み込み処理を行うことで、重畳音声のデータを生成する。重畳音声は、配信音声に重畳されて提示される。
 なお、ライブイベントの期間中に観客が発話する可能性がある文言(決まり文句)がリモートライブの開催者によりあらかじめ設定されるようにしてもよい。リモート観客がこの文言を発話したことが、サーバ100において音声認識を用いて検出された場合、文言に対応するプリセット番号がテキスト情報の代わりに符号化されて、サーバ100から観客端末200に送信される。
 観客端末200に送信されるパラメータに、各グループに所属するリモート観客の声質を示す情報が含まれるようにしてもよい。各グループに所属するリモート観客の声質を示すパラメータは、例えばメルケプストラムやスペクトル包絡を含む。また、各グループに所属するリモート観客の声質を示すパラメータは、リモート観客の性別や年齢の情報を含む。
 パラメータが各グループに所属するリモート観客の声質を示す場合、観客端末200は、合成音声に性別や年齢を反映させたり、重畳音声のデータを公知の声質変換技術を用いて加工したりすることで、重畳音声に含まれる合成音声の声質を本来のリモート観客の声質に似せることができる。観客端末200は、例えば、男性アイドルのライブコンサートに多く参加している特定の年代の女性により、いわゆる黄色い声援が発せられる様子を再現することができる。
 観客端末200に送信されるパラメータに、リモート観客が所属する地域を示す情報である地域情報が含まれるようにしてもよい。リモート観客が所属する地域を示すパラメータは、テキスト情報の言語や、反応音声の送信元となる各リモート観客が使用する観客端末200のIPアドレスを含む。
 パラメータが地域を示す場合、観客端末200は、国籍に応じたテンプレート歓声音を複数保持しておき、複数のテンプレート歓声音の中から、使用するテンプレート歓声音をパラメータに基づいて選択する。また、観客端末200は、パラメータで示されるテキスト情報の言語に適した音声合成エンジンを使用して音声合成を行う。リモート観客が所属する地域を示すパラメータに基づいて、テンプレート歓声音の選択や音声合成が行われることで、観客端末200は、リモート観客が所属する地域に合わせた歓声を提示することができる。
<4.第3の実施の形態>
 第3の実施の形態においては、送信先のリモート観客の観客端末200とサーバ100の間の通信状況や、送信先のリモート観客の観客端末200の演算リソースに基づいて、第1の実施の形態と第2の実施の形態で説明した処理が切り替えられる。
 サーバ100は、送信先のリモート観客の観客端末200とサーバ100の間の通信状況を示す情報や、送信先のリモート観客の観客端末200の演算リソースを示す情報を含む属性情報を受信し、属性情報に基づいて動作を切り替える。
 図35は、通信状況に応じて切り替えられる、送信先のリモート観客宛の符号化反応データの例を示す図である。図35の例では、リモート観客5の観客端末に送信される、リモート観客1乃至4とリモート観客6乃至36の符号化反応データが示されている。
 図35の左側に示すように、通信状況が不良である場合、サーバ100は、第1の実施の形態の変形例で説明したように、リモート観客5が所属するグループ1以外のグループに割り当てられたリモート観客の符号化反応データをグループごとに合算することで、トラフィックの削減を優先して処理を行う。リモート観客5宛の符号化反応データ群のビットレートの合計は704kbpsとなる。なお、第2の実施の形態で説明したように、符号化反応データに含まれる反応データがパラメータに置き換えられるようにしてもよい。
 リモート観客5の観客端末の演算リソースに制約がある場合も、同様に、サーバ100は、リモート観客5が所属するグループ1以外のグループに割り当てられたリモート観客の符号化反応データをグループごとに合算することで、観客端末200の演算量の削減を優先して処理を行う。
 図35の中央に示すように、通信状況が不良でも良好でもない中程度である場合、サーバ100は、第1の実施の形態で説明したように、グループ1に所属するリモート観客の符号化反応データの符号化品質を変更せずに送信し、グループ1以外のグループに所属するリモート観客の符号化反応データの符号化品質を低くして送信する。リモート観客5宛の符号化反応データ群のビットレートの合計は962kbpsとなる。
 図35の右側に示すように、通信状況が良好である場合、サーバ100は、全ての符号化反応データをパススルーしてリモート観客5の観客端末に送信する。全ての符号化反応データをパススルーすると、トラフィックは削減されないが、高品質かつ低遅延の反応音声をリモート観客5に提示することができる。
 以上のように、各観客端末の通信状況や演算リソースを示す属性情報に基づいて、サーバ100は、リモートライブシステム全体に破綻が生じない範囲で反応音声の品質を最大化することができる。
 なお、第3の実施形態に係るリモートライブシステムの構成は、第1の実施形態に係る構成や第2の実施の形態に係る構成と基本的には同じである。ただし、サーバ100における反応音声加工選択処理の内容や観客端末200における反応音声合算処理の内容が、送信先のリモート観客の観客端末の通信状況や演算リソースに応じて動的に変化する。
<コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図36は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。サーバ100、観客端末200、および演者端末300は、例えば、図36に示す構成と同様の構成を有するPCにより構成される。
 CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インタフェース505が接続される。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505及びバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。
 CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。
 コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、前記送信元の端末に関する属性情報に基づいて情報量が決定された前記符号化データを復号する復号部と、
 復号された前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部と
 を備える情報端末。
(2)
 前記属性情報は、前記送信元の端末を使用する他のユーザの仮想空間上の位置を示す情報である
 前記(1)に記載の情報端末。
(3)
 前記属性情報は、前記送信元の端末を使用する他のユーザと前記ユーザの関係度を示す情報である
 前記(1)または(2)に記載の情報端末。
(4)
 前記音声情報の情報量は、前記送信元の端末についての前記属性情報、または、前記情報端末の通信状況の少なくとも一方に基づいて決定される
 前記(1)乃至(3)のいずれかに記載の情報端末。
(5)
 前記音声情報は、前記送信元の端末をそれぞれ使用する複数の他のユーザが所属するグループの音声、または、前記他のユーザの音声を表現するパラメータを含む
 前記(1)乃至(4)のいずれかに記載の情報端末。
(6)
 前記パラメータは、前記符号化データの振幅変動を示す情報である
 前記(5)に記載の情報端末。
(7)
 前記パラメータは、所定のフレームごとに算出された、前記他のユーザまたは前記グループの音声の大きさの平均値である
 前記(6)に記載の情報端末。
(8)
 前記パラメータは、前記他のユーザまたは前記グループの音声の音声認識の結果を示す情報である
 前記(5)に記載の情報端末。
(9)
 前記パラメータは、前記音声認識の結果として取得されたテキスト情報、または前記テキスト情報に対するプリセット番号である
 前記(8)に記載の情報端末。
(10)
 前記パラメータは、前記グループの規模を示す情報である
 前記(5)乃至(9)のいずれかに記載の情報端末。
(11)
 前記グループの規模を示す情報は、前記グループに所属する前記他のユーザの人数を示す情報を含む
 前記(10)に記載の情報端末。
(12)
 前記パラメータは、前記他のユーザまたは前記グループの音声の声質を示す情報である
 前記(5)乃至(11)のいずれかに記載の情報端末。
(13)
 前記声質を示す情報は、メルケプストラム、スペクトル包絡、前記他のユーザの性別、年齢の少なくともいずれかを含む
 前記(12)に記載の情報端末。
(14)
 前記パラメータは、前記他のユーザが所属する地域を示す地域情報である
 前記(5)乃至(13)のいずれかに記載の情報端末。
(15)
 前記地域情報は、前記送信元の端末のIPアドレスを含む
 前記(14)に記載の情報端末。
(16)
 前記音声情報は、前記送信元の端末を使用する他のユーザがコンテンツに対する反応として発した音声を示し、
 前記出力制御部は、前記コンテンツの主となる音声に、前記音声情報に基づく音声を重畳して前記出力機器から出力させる
 前記(1)乃至(15)のいずれかに記載の情報端末。
 (17)
 前記音声情報は、前記他のユーザの歓声、拍手、合いの手の少なくとも一つを含む音声を示す
 前記(16)に記載の情報端末。
(18)
 情報端末が、
 1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
 前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
 情報処理方法。
(19)
 コンピュータに、
 1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
 前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
 処理を実行させるためのプログラム。
(20)
 1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データを、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換する変換部と、
 変換済みの符号化データを前記送信先の端末に送信する送信部と
 を備える情報処理装置。
 100 サーバ, 101 受信部, 102 反応音声加工選択部, 103 送信部, 111 変換部, 112 データ選択部, 200 観客端末, 201 反応音声録音部, 202 送信部, 203 受信部, 204 復号部, 205 反応音声合算部, 206 音声重畳部, 207 出力制御部, 211 復号部, 212 合算・畳み込み部, 220 マイクロフォン, 221 ディスプレイ, 300 演者端末, 301 受信部, 302 反応音声合算部, 303 出力制御部, 320 スピーカ

Claims (20)

  1.  1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、前記送信元の端末に関する属性情報に基づいて情報量が決定された前記符号化データを復号する復号部と、
     復号された前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部と
     を備える情報端末。
  2.  前記属性情報は、前記送信元の端末を使用する他のユーザの仮想空間上の位置を示す情報である
     請求項1に記載の情報端末。
  3.  前記属性情報は、前記送信元の端末を使用する他のユーザと前記ユーザの関係度を示す情報である
     請求項1に記載の情報端末。
  4.  前記音声情報の情報量は、前記送信元の端末についての前記属性情報、または、前記情報端末の通信状況の少なくとも一方に基づいて決定される
     請求項1に記載の情報端末。
  5.  前記音声情報は、前記送信元の端末をそれぞれ使用する複数の他のユーザが所属するグループの音声、または、前記他のユーザの音声を表現するパラメータを含む
     請求項1に記載の情報端末。
  6.  前記パラメータは、前記符号化データの振幅変動を示す情報である
     請求項5に記載の情報端末。
  7.  前記パラメータは、所定のフレームごとに算出された、前記他のユーザまたは前記グループの音声の大きさの平均値である
     請求項6に記載の情報端末。
  8.  前記パラメータは、前記他のユーザまたは前記グループの音声の音声認識の結果を示す情報である
     請求項5に記載の情報端末。
  9.  前記パラメータは、前記音声認識の結果として取得されたテキスト情報、または前記テキスト情報に対応するプリセット番号である
     請求項8に記載の情報端末。
  10.  前記パラメータは、前記グループの規模を示す情報である
     請求項5に記載の情報端末。
  11.  前記グループの規模を示す情報は、前記グループに所属する前記他のユーザの人数を示す情報を含む
     請求項10に記載の情報端末。
  12.  前記パラメータは、前記他のユーザまたは前記グループの音声の声質を示す情報である
     請求項5に記載の情報端末。
  13.  前記声質を示す情報は、メルケプストラム、スペクトル包絡、前記他のユーザの性別、年齢の少なくともいずれかを含む
     請求項12に記載の情報端末。
  14.  前記パラメータは、前記他のユーザが所属する地域を示す地域情報である
     請求項5に記載の情報端末。
  15.  前記地域情報は、前記送信元の端末のIPアドレスを含む
     請求項14に記載の情報端末。
  16.  前記音声情報は、前記送信元の端末を使用する他のユーザがコンテンツに対する反応として発した音声を示し、
     前記出力制御部は、前記コンテンツの主となる音声に、前記音声情報に基づく音声を重畳して前記出力機器から出力させる
     請求項1に記載の情報端末。
  17.  前記音声情報は、前記他のユーザの歓声、拍手、合いの手の少なくとも一つを含む音声を示す
     請求項16に記載の情報端末。
  18.  情報端末が、
     1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
     前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
     情報処理方法。
  19.  コンピュータに、
     1台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
     前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
     処理を実行させるためのプログラム。
  20.  1台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データを、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換する変換部と、
     変換済みの符号化データを前記送信先の端末に送信する送信部と
     を備える情報処理装置。
PCT/JP2023/019859 2022-06-17 2023-05-29 情報端末、情報処理方法、プログラム、および情報処理装置 WO2023243375A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022098010 2022-06-17
JP2022-098010 2022-06-17

Publications (1)

Publication Number Publication Date
WO2023243375A1 true WO2023243375A1 (ja) 2023-12-21

Family

ID=89190956

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/019859 WO2023243375A1 (ja) 2022-06-17 2023-05-29 情報端末、情報処理方法、プログラム、および情報処理装置

Country Status (1)

Country Link
WO (1) WO2023243375A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160164938A1 (en) * 2014-12-05 2016-06-09 Hisense Usa Corp. Devices and methods for transmitting adaptively adjusted documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160164938A1 (en) * 2014-12-05 2016-06-09 Hisense Usa Corp. Devices and methods for transmitting adaptively adjusted documents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FUJIMORI AKIHO, KAWAHARA KAZUHIKO, KAMAMOTO YUTAKA, SATO TAKASHI G, NISHIKAWA MOE, OMOTO AKIRA, MORIYA TAKEHIRO: "Development and Evaluation of an Applause and Hand-Clapping Sound Feedback System to Improve a Sense of Unity on Live Viewing", IEICE JOURNAL A, vol. J101–A, no. 12, 1 December 2018 (2018-12-01), pages 273 - 282, XP093117491 *
MIURA FUMIO: "Various issues for Online Live Concerts", BULLETIN OF THE FACULTY OF SOCIOLOGY, KANSAI UNIVERSITY, vol. 53, no. 1, 4 July 2021 (2021-07-04), pages 185 - 201, XP093117494, ISSN: 0287-6817 *

Similar Documents

Publication Publication Date Title
US10979842B2 (en) Methods and systems for providing a composite audio stream for an extended reality world
JP5609160B2 (ja) 情報処理システム、コンテンツ合成装置および方法、並びに記録媒体
CN101517637B (zh) 音频编解码器 、编解码方法、 集线器、 发送接收器、 发送接收方法、通信系统、 播放设备
JP5340296B2 (ja) 復号化装置、符号化復号化装置および復号化方法
US7590249B2 (en) Object-based three-dimensional audio system and method of controlling the same
US9025002B2 (en) Method and apparatus for playing audio of attendant at remote end and remote video conference system
WO2018047667A1 (ja) 音声処理装置および方法
JPWO2018096954A1 (ja) 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
EP2244797A2 (en) Scalable techniques for providing real-lime per-avatar streaming data in virtual reality systems thai employ per-avatar rendered environments
JP2012129800A (ja) 情報理装置および方法、プログラム、並びに情報処理システム
WO2022163137A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2022020625A (ja) 音声処理システム、音声処理装置、音声処理方法、及び音声処理プログラム
JP7503257B2 (ja) コンテンツ収集・配信システム
WO2023243375A1 (ja) 情報端末、情報処理方法、プログラム、および情報処理装置
CN114915874A (zh) 音频处理方法、装置、设备、介质及程序产品
CN111951821A (zh) 通话方法和装置
TWI834163B (zh) 三維音頻訊號編碼方法、裝置和編碼器
WO2022262576A1 (zh) 三维音频信号编码方法、装置、编码器和系统
WO2022018828A1 (ja) 応援支援方法、応援支援装置、およびプログラム
JP4504216B2 (ja) 画像処理装置および画像処理プログラム
JP2018028646A (ja) 会場別カラオケ
WO2023120244A1 (ja) 伝送装置、伝送方法、およびプログラム
WO2023157650A1 (ja) 信号処理装置および信号処理方法
JP2004336292A (ja) 音声処理システム、装置および方法
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23823673

Country of ref document: EP

Kind code of ref document: A1