WO2023042436A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2023042436A1
WO2023042436A1 PCT/JP2022/010483 JP2022010483W WO2023042436A1 WO 2023042436 A1 WO2023042436 A1 WO 2023042436A1 JP 2022010483 W JP2022010483 W JP 2022010483W WO 2023042436 A1 WO2023042436 A1 WO 2023042436A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
reaction
video
audio
terminal
Prior art date
Application number
PCT/JP2022/010483
Other languages
English (en)
French (fr)
Inventor
崇史 服部
梨奈 小谷
志朗 鈴木
祐樹 松村
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023042436A1 publication Critical patent/WO2023042436A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications

Definitions

  • the present technology relates to an information processing device, method, and program, and more particularly to an information processing device, method, and program that enable presentation of video or audio with less discomfort.
  • the reaction of the audience is sensed with a head-mounted display, acceleration sensor, etc., and the information obtained by sensing is converted into movement information etc. and transmitted to the terminal of the other person.
  • a method of receiving the response is proposed. In this method, by presenting the received reactions of others as moving images of objects such as penlights and avatars, it is possible to induce the audience to participate in the event.
  • the image indicated by arrow Q11 in FIG. 1 if a moving image of the object indicated by arrow Q12 is generated from the movement information indicating the reaction of the other person received by the own terminal, the image is distributed as indicated by arrow Q13.
  • a moving image of an object can be superimposed on the projected image and presented. By doing so, it is possible to induce a sense of participation in the event from the audience who are watching the video of the live performance or the like on their own terminals.
  • Patent Document 1 discloses a method of implementing the concept described with reference to FIG. 1 in a live event in virtual space.
  • a system consisting of an HMD (Head Mounted Display) worn by the audience and various sensors presents the audience with images of the live event held in the virtual space and senses the movement of the audience. and the sensing results are sent to the server as position information and motion information.
  • motion information and the like obtained from other spectators are received from the server, and the motion information and the like are used to present an image in which the avatars corresponding to the other spectators move in the virtual space.
  • Patent Document 2 discloses a method of presenting the reactions of remotely participating spectators on a display installed at the live event venue when the live event can be attended both at the actual venue and remotely.
  • the reaction of the audience participating in the live event remotely is sensed and transmitted to the live venue as motion information, and a video of the object moving is generated based on the motion information.
  • a video of the object moving is generated based on the motion information.
  • Non-Patent Document 1 also discloses a system similar to that in Patent Document 2, in which reactions of the audience captured by a camera are transmitted to the live venue and displayed at the live venue. This state is redistributed to the audience as a distribution video.
  • Patent Document 3 when retransmitting reaction information to all terminals after adjusting the timing on the server, it is necessary to adjust the timing to terminals with a large amount of delay, which increases the delay of the reaction information. Therefore, in reality, it is difficult to apply the technology described in Patent Document 3 to live performances by a large number of people.
  • This technology has been developed in view of this situation, and enables the presentation of video or audio with less discomfort.
  • An information processing device includes a receiving unit that receives reaction information indicating reactions of other users generated by each of a plurality of terminals different from the own terminal, and a plurality of the reaction information. and a generation unit for generating presentation video or presentation audio corresponding to reactions of the plurality of other users based on environment information indicating the environment of the own terminal.
  • An information processing method or program receives reaction information indicating reactions of other users generated in each of a plurality of terminals different from the own terminal, and a plurality of the reaction information, generating presentation video or presentation audio corresponding to reactions of the plurality of other users based on the environment information indicating the environment of the own terminal.
  • reaction information indicating reactions of other users generated by each of a plurality of other terminals different from the own terminal is received, and a plurality of the reaction information and the environment of the own terminal are received. Based on the environmental information indicating the above, presentation video or presentation audio corresponding to the reaction of the plurality of other users is generated.
  • FIG. 10 is a diagram for explaining deviations in reactions of spectators; It is a figure explaining the system of patent document 2.
  • FIG. FIG. 10 is a diagram for explaining deviations in reactions of spectators; It is a figure explaining the example in which a sense of unity is spoiled by the gap of reaction. It is a figure which shows the structural example of a remote live system. It is a figure explaining transmission information and reception information.
  • FIG. 4 is a diagram showing a configuration example of a spectator terminal; It is a figure which shows the structural example of a presenter's terminal. It is a figure explaining the difference with a general remote live system.
  • FIG. 4 is a flowchart for explaining content reproduction processing; 4 is a flowchart for explaining reaction regeneration processing; FIG. 4 is a diagram showing a configuration example of a reaction video/sound generation unit; FIG. 4 is a diagram showing a configuration example of a reaction video/sound generation unit; FIG. 10 is a diagram illustrating selection of period information based on tempo information; FIG.
  • FIG. 10 is a diagram illustrating selection of period information based on tempo information;
  • FIG. 10 is a diagram illustrating selection of period information based on beat information;
  • FIG. 10 is a diagram illustrating selection of period information based on own terminal period information;
  • FIG. 10 is a diagram illustrating selection of period information based on own terminal period information; It is a figure explaining selection of period information based on dispersion
  • FIG. 10 is a diagram showing an example of a correspondence table;
  • FIG. 10 is a diagram illustrating object generation based on a correspondence table; It is a figure explaining generation of a reaction image.
  • 10 is a flowchart for explaining reaction frame generation processing; It is a figure explaining period information. It is a figure explaining generation of reaction sound.
  • FIG. 10 is a diagram illustrating selection of period information based on tempo information;
  • FIG. 10 is a diagram illustrating selection of period information based on beat information;
  • FIG. 10 is
  • FIG. 10 is a flowchart for explaining reaction sound generation processing; FIG. It is a figure explaining the number of selection period information, and the change of a reaction sound. It is a figure explaining the outline
  • FIG. 4 is a diagram showing a configuration example of a reaction video/sound generation unit; 9 is a flowchart for explaining delay amount calculation processing; It is a figure explaining generation of a reaction image. It is a figure explaining generation of reaction sound.
  • FIG. 4 is a diagram showing a configuration example of a reaction video/sound generation unit; It is a figure which shows the structural example of a computer.
  • FIG. 1 An example of such a reaction deviation of the other person (audience) will be described with reference to FIGS. 2 to 5.
  • FIG. 1 An example of such a reaction deviation of the other person (audience) will be described with reference to FIGS. 2 to 5.
  • the term "audience” includes not only a person but also a terminal corresponding to each individual, which has a function of presenting a distributed image and transmitting a sensed reaction to others.
  • the term “performer” includes not only the person himself but also the distributor who records/records the program performed by the performer and transmits it to the server.
  • FIGS 2 and 3 describe the system described in Patent Document 1 above.
  • Fig. 2 shows a simplified version of the system described in Patent Document 1 for explanation.
  • a performer records/records a program and transmits it to a server as distributed video/audio, and each audience member receives the distributed video/audio from the server.
  • Each spectator senses their own reaction while watching the distributed video/audio and transmits it to other spectators as movement information. At the same time, each spectator receives the motion information of a large number of other spectators, uses the motion information to generate video and audio corresponding to the reaction of others, and the generated video/audio is distributed video/audio. It is superimposed on the voice and presented to the audience.
  • Audience A sees a superimposed image in which the reactions of many other audience members, such as Audience B and Audience C, are superimposed as moving images of objects (avatars, etc.). .
  • each spectator has different communication path delays, so the reactions (movement information) of others seen by a certain spectator are out of sync.
  • FIG. 3 shows how much the reaction of the other persons notified to the audience A, that is, the audience B and the audience C, is delayed from the timing when the audience A received the distributed video at a certain time as viewed from the audience A. It is a timing chart showing whether.
  • FIG. 4 shows a simplified version of the system described in Patent Document 2 for explanation.
  • This system is similar to the system shown in FIG. 2, but differs from the system shown in FIG. 2 in that only the performer (live venue) is notified of the movement information as the reaction of the audience.
  • the delivered video/audio obtained by recording/recording the program by the performer is delivered to each audience by the server.
  • Motion information obtained by sensing on each audience side is transmitted to the performer, and the performer uses the motion information of each audience to generate and present a moving image of the object.
  • a “performer” is a person who performs a program such as a performance at a live event.
  • the main target of this technology is live concerts held remotely, but the program is not limited to this, and includes theater and sports.
  • a “spectator” is a spectator (user who is a viewer) who remotely participates in a live event. While watching video/audio presented by the spectator terminal (to be described later), the spectator reacts by moving the special device for sensing or the terminal, by moving the body, or by clapping.
  • reaction information is information indicating the reaction of the audience, and is a general term for period information, movement information, etc., which will be described later.
  • reaction video is a video in which an object corresponding to the other person moves, which is generated mainly from reaction information of the other person.
  • the reaction image is an image in which a penlight swings left and right, an image in which a human-like avatar's head, hands, and arms swing back and forth or left and right.
  • reaction voice is a voice mainly generated from other people's reaction information.
  • the reaction sound is the sound of applause or shouts from the audience.
  • Period information is one type of reaction information. This information is simplified to only information indicating the cycle (information based on the reaction cycle). For example, when the movement of the penlight is presented as a reaction image, information such as information that the penlight moves at an angle of 45° to 135° and the cycle of the movement is 3 seconds is taken as period information.
  • a “performer terminal” is a terminal corresponding to a performer, which receives reaction information and presents reaction video and reaction audio to the performer.
  • the “spectator terminal” is a terminal corresponding to each spectator, which receives the distribution video/audio and reaction information, superimposes the reaction video, the reaction audio, and the distribution video/audio and presents them to the spectators.
  • the spectator terminal also has a function of sensing and analyzing the reaction of the spectator corresponding to its own terminal and transmitting it to other terminals.
  • FIG. 7 is a diagram showing a configuration example of an embodiment of a remote live system to which this technology is applied.
  • the remote live system shown in FIG. 7 has a large number of spectator terminals including spectator terminals 11A, 11B, and 11C, performer terminals 12, recording/distribution devices 13, and network .
  • spectator terminal 11A of the spectator A the spectator terminal 11B of the spectator B, and the spectator terminal 11C of the spectator C are shown here as the spectator terminals for easy viewing of the drawing.
  • Spectator terminals of spectators are also connected to the network 14 .
  • the spectator terminals 11 are also simply referred to.
  • the audience terminal 11, performer terminal 12, and recording/distribution device 13 are connected to a network 14 including a server (not shown).
  • the program performed by the performer is recorded and recorded by the recording/distribution device 13 by an unspecified distributor, and after being encoded, is transmitted to the network 14 including the server as distribution video/audio.
  • the recording/distribution device 13 records (photographs) to obtain distribution video including the performer as a subject, more specifically, video data of the distribution video (distribution video data). Also, the recording/distribution device 13 records (collects sound) to obtain distributed audio including the voice of the performer, more specifically, audio data of the distributed audio (distributed audio data). Contents composed of these distributed videos and distributed audio accompanying the distributed videos are distributed to the spectator terminals 11 .
  • the content distributed to the spectator terminal 11 may be at least one of distributed video and distributed audio.
  • distributed video and distributed audio that is, data composed of distributed video data and distributed audio data will also be referred to as distributed video/audio.
  • the recording/distribution device 13 encodes the distribution video/audio and transmits the resulting encoded distribution video/audio to the server on the network 14 .
  • the server transmits (distributes) the encoded distribution video/audio transmitted from the recording/distribution device 13 to a large number of spectator terminals 11 including the spectator terminals 11A to 11C via the network 14.
  • the encoded distribution video/audio transmitted to the spectator terminal 11 is also simply referred to as distribution video/audio.
  • video/audio obtained by photographing and collecting sound by the recording/distribution device 13 will be coded and distributed by a server on the network 14 by encoding the video/audio.
  • the video/audio obtained by shooting and collecting the sound will also be referred to as raw video/audio.
  • the spectator terminal 11 consists of an information processing device (terminal device) such as a smartphone, tablet, game machine, or personal computer.
  • terminal device such as a smartphone, tablet, game machine, or personal computer.
  • the spectator terminal 11 receives the coded distribution video/audio transmitted (distributed) by the recording/distribution device 13 via the network 14 (server), decodes the received coded distribution video/audio, and distributes the received coded distribution video/audio. Get video/audio.
  • the spectator terminal 11 also transmits and receives period information at the same time as decoding the distributed video/audio.
  • the spectator terminal 11 generates periodic information about the reaction of the audience corresponding to itself (spectator terminal 11), and transmits the periodic information to the other spectator terminal 11 and the performer terminal 12 via the network 14 (server). Send. Also, the spectator terminal 11 receives periodic information about reactions of other spectators corresponding to the other spectator terminals 11 from a plurality of other spectator terminals 11 via the network 14 (server).
  • the spectator terminal 11A generates and transmits periodic information about the reaction of the spectator A, and also receives periodic information about the reaction of the spectator B and the reaction of the spectator C from the spectator terminal 11B and the spectator terminal 11C. receive period information.
  • the spectator terminal 11 uses the received periodic information to generate reaction video and reaction audio that indicate the reactions of a plurality of other spectators (other users) on its own terminal.
  • the spectator terminal 11 superimposes the reaction video/audio on the decoded distribution video/audio, and presents the video (hereinafter also referred to as presentation video) and audio (hereinafter also referred to as presentation audio) to the corresponding audience. do.
  • the presentation video may be a distribution video superimposed with a reaction video, or may be only a reaction video.
  • the presentation sound may be a response sound superimposed (synthesized) on the delivery sound, or may be only the reaction sound.
  • the performer terminal 12 consists of an information processing device (terminal device) such as a computer, for example.
  • the performer terminal 12 receives periodic information about audience reactions from each of the plurality of audience terminals 11 via the network 14 (server).
  • the performer terminal 12 uses the received periodic information to generate a reaction video and a reaction sound indicating the reactions of a plurality of spectators on its own terminal, and presents them to the performer.
  • the information (reception information) received by the device on the distribution side is generated for each of the spectators A, B, and C. It is periodic information.
  • the device on the distribution side receives periodic information about each of the spectators A to C from each of the spectator terminals 11A to 11C.
  • the information (transmission information) transmitted by the device on the distribution side will be the distributed video/audio, which is the video and audio of the remote live.
  • the received information is the distributed video/audio
  • the periodic information about the spectator B is the periodic information about the spectator C
  • the transmitted information is the periodic information about the spectator A.
  • the received information is the distributed video/audio
  • the periodic information about the spectator A is the periodic information about the spectator C
  • the transmitted information is the periodic information about the spectator B.
  • the received information is the distributed video/audio
  • the periodic information about the spectator A is the periodic information about the spectator B
  • the transmitted information is the periodic information about the spectator C.
  • both the performer terminal 12 and the audience terminal 11 receive other's periodic information, and each audience terminal 11 receives the distributed video/audio in addition to the periodic information.
  • the spectator terminal 11 is configured as shown in FIG. 9, for example.
  • a sensing device 41 and a video/audio output device 42 are connected to the spectator terminal 11 .
  • the spectator terminal 11 mainly has the following functions. ⁇ Analyze the sensed reaction of the audience and transmit it as periodic information ⁇ Receive and decode encoded video/audio distribution ⁇ Receive periodic information from others and generate reaction video and audio ⁇ Distribute video/audio , the reaction video/audio is superimposed and output
  • the spectator terminal 11 includes a sensing information analysis unit 51 , a transmission unit 52 , a reception unit 53 , a distribution video/audio decoding unit 54 , a reaction video/audio generation unit 55 , a video/audio superimposition unit 56 , and a video/audio output unit 57 . have.
  • the sensing information analysis unit 51 acquires the reaction of the audience sensed by the sensing device 41 as sensing information from the sensing device 41, converts the sensing information into period information, and sends it to the transmission unit 52 and reaction video/audio generation unit 55. supply.
  • the sensing information analysis unit 51 functions as a reaction information generation unit that generates period information as reaction information based on sensing information.
  • the sensing device 41 is a device equipped with one or more sensors such as a camera (image sensor), microphone, acceleration sensor, gyro sensor, and geomagnetic sensor. Specifically, for example, the sensing device 41 is a head-mounted display worn by a spectator (user) corresponding to the spectator terminal 11, or a penlight-type device held by the spectator.
  • sensors such as a camera (image sensor), microphone, acceleration sensor, gyro sensor, and geomagnetic sensor.
  • the sensing device 41 is a head-mounted display worn by a spectator (user) corresponding to the spectator terminal 11, or a penlight-type device held by the spectator.
  • the sensing device 41 senses an image of the spectator as a subject, the sound of the spectator, the angular acceleration and angular velocity indicating the movement of the spectator as reactions of the spectator, and supplies the resulting sensing information to the sensing information analysis unit 51. do.
  • the sensing device 41 may be provided outside the spectator terminal 11 and connected to the spectator terminal 11 , or may be mounted inside the spectator terminal 11 .
  • the period information is notified (supplied) to the reaction video/audio generation unit 55 as auxiliary information. Therefore, the reaction video/audio generation unit 55 does not necessarily use the period information supplied from the sensing information analysis unit 51 .
  • the transmission unit 52 transmits the period information supplied from the sensing information analysis unit 51 to the server on the network 14 .
  • the periodic information transmitted to the server is notified (transmitted) to the performer terminal 12 and other audience terminals 11 .
  • the receiving unit 53 receives the encoded distribution video/audio from the server on the network 14 and supplies it to the distribution video/audio decoding unit 54 .
  • the receiving unit 53 receives (obtains) a large amount of period information of others (other spectators) as reaction information of others (other spectators) from the server on the network 14 and supplies it to the reaction video/audio generation unit 55 . That is, the receiving unit 53 receives the reaction information of each of the other users (other spectators) generated by each of the other spectator terminals 11 different from the own terminal.
  • the distribution video/audio decoding unit 54 decodes the encoded distribution video/audio supplied from the receiving unit 53, and transmits the resulting distribution video/audio to the reaction video/audio generation unit 55 and the video/audio superimposition unit 56. supply to
  • the delivered video/audio is notified (supplied) to the reaction video/audio generator 55 as auxiliary information. Therefore, the reaction video/audio generation unit 55 does not necessarily use the distribution video/audio supplied from the distribution video/audio decoding unit 54 .
  • the reaction video/audio generator 55 generates reaction video/audio corresponding to reactions of a plurality of other users, i.e., reaction video and reaction audio, based on at least the period information of others supplied from the receiver 53. , is supplied (transmitted) to the video/audio superposing unit 56 .
  • a reaction video is, for example, a video of an object corresponding to each of a plurality of others that moves according to the other's reaction information (periodic information).
  • the reaction sounds are sounds in which specific sounds corresponding to reactions of a plurality of others are reproduced, for example, at timings according to the reaction information (period information) of the others.
  • the reaction video/audio generation unit 55 may use not only other's period information but also auxiliary information.
  • reaction video/audio generation unit 55 receives the period information of its own terminal supplied from the sensing information analysis unit 51, the distribution video supplied from the distribution video/audio decoding unit 54, and the distribution video/audio decoding unit 54.
  • a reaction video/audio may be generated using at least one of the delivered audio as auxiliary information.
  • the cycle information of the own terminal and the distributed video/audio used as auxiliary information are information indicating the environment regarding the distributed video/audio of the own terminal. Therefore, it can be said that these pieces of auxiliary information are environment information indicating the environment of the own terminal (spectator terminal 11) at the time of reproducing the distributed video/audio.
  • the periodic information about the reaction of the spectator corresponding to the spectator terminal 11, which is generated by the sensing information analysis unit 51 of the spectator terminal 11 itself, is particularly referred to as self-terminal periodic information.
  • the other's period information received by the spectator terminal 11 is also referred to as other's period information.
  • the video/audio superimposing unit 56 superimposes the reaction video/audio supplied from the reaction video/audio generating unit 55 on the distribution video/audio supplied from the distribution video/audio decoding unit 54, thereby generating a presentation video. /Audio is generated and supplied to the video/audio output unit 57 .
  • reaction video and reaction audio may be used as they are as the presentation video and presentation audio. Alternatively, only one of the presentation video and the presentation audio may be output.
  • the video/audio output unit 57 converts the presented video/audio supplied from the video/audio superimposing unit 56 into a format that can be actually output to the video/audio output device 42, and converts the presented video/audio after conversion into video. / Supplied (output) to the audio output device 42 . That is, the video/audio output unit 57 outputs the presentation video/audio to the video/audio output device 42 to present the presentation video/audio to the user.
  • the format that can be output to the video/audio output device 42 is the output format of HDMI (High-Definition Multimedia Interface) (registered trademark) or a known video/audio data format (format).
  • HDMI High-Definition Multimedia Interface
  • format a known video/audio data format (format).
  • the video/audio output device 42 is composed of a device such as a display having a video display function and an audio output function, and presents presentation video/audio supplied from the video/audio output unit 57 to the audience at the terminal itself. That is, the video/audio output device 42 displays the presentation video and reproduces the presentation audio.
  • the presenter terminal 12 is configured as shown in FIG. 10, for example.
  • the performer terminal 12 is supplied with raw video/audio obtained by a camera, microphone, etc., and appropriately generates reaction video/audio using the raw video/audio as auxiliary information. output to the video/audio output device 81 connected to the .
  • the performer terminal 12 has a receiving section 91 , a reaction video/audio generating section 92 , and a video/audio output section 93 .
  • reception unit 91, reaction video/audio generation unit 92, and video/audio output unit 93 correspond to the reception unit 53, reaction video/audio generation unit 55, and video/audio output unit 57 of the spectator terminal 11.
  • the performer terminal 12 has only the function of receiving other person's period information and generating a reaction video and a reaction sound. Therefore, the configuration of the performer terminal 12 is the same as that of the audience terminal 11 except for some processing blocks.
  • the receiving unit 91 acquires (receives) a large amount of other's period information from the server on the network 14 and supplies it to the reaction video/audio generating unit 92 .
  • the reaction video/audio generation unit 92 generates a reaction video that is the movement of the object and a reaction video based on the period information of the other person supplied from the reception unit 91 and the raw video/audio supplied from the outside as auxiliary information. Sound is generated, and the resulting reaction video/audio is supplied to the video/audio output unit 93 .
  • raw video/audio is the raw data of the performance that is the source of the video/audio to be distributed to the audience. Also, the raw video/audio that is the auxiliary information does not necessarily have to be used to generate the reaction video/audio.
  • the raw video/audio used as auxiliary information can be said to be environment information indicating the environment of its own terminal (performer's terminal 12).
  • the video/audio output unit 93 converts the reaction video/audio supplied from the reaction video/audio generation unit 92 into a format that can be actually output to the video/audio output device 81, and outputs the converted reaction video/audio.
  • the presentation video/audio is supplied (output) to the video/audio output device 81 .
  • the formats that can be output to the video/audio output device 81 are the HDMI (registered trademark) output format and the known video/audio data format (format).
  • the specific embodiment of the spectator terminal 11 described above may vary depending on the use case and the equipment owned by the spectator.
  • a specific example of the spectator terminal 11 will be described below.
  • a function as the spectator terminal 11 is installed in a smart phone or a tablet.
  • the smartphone or the like can be used as the spectator terminal 11.
  • a built-in camera or microphone of a smart phone or the like can be used as a device for sensing, that is, a sensing device 41 .
  • a sensing device 41 having an acceleration sensor, a gyro sensor, or the like may be connected to the spectator terminal 11 by wire or wirelessly.
  • the sensing device 41 may be a gripping device that has a sensor such as an acceleration sensor or a gyro sensor and that imitates the shape of a penlight and emits light.
  • a sensor such as an acceleration sensor or a gyro sensor
  • the spectator purchase a grasping device as the sensing device 41 before the live event, or distribute the grasping device to the spectator together with the ticket.
  • video is presented on a display mounted on or connected to a smartphone or tablet as the spectator terminal 11, and audio is presented by speakers, earphones, and headphones mounted on or connected to the spectator terminal 11.
  • a function as the spectator terminal 11 is installed in a PC (Personal Computer)/game machine.
  • the PC or the like can be used as the spectator terminal 11.
  • the sensing device that is, the sensing device 41
  • a device, a controller, a head-mounted display, or the like that includes the above-described acceleration sensor, gyro sensor, or the like can be used. Images are presented on a display connected to the spectator terminal 11 or a head-mounted display, and audio is presented by speakers, earphones, headphones, a head-mounted display, etc. connected to the spectator terminal 11 .
  • the function as the performer terminal 12 can also be realized by a device similar to the example of the audience terminal 11 described above. However, it is desirable that the performer's terminal 12 has an interface capable of inputting raw audio video/audio with low delay.
  • the video is presented on a display that is visible to the performer, and the audio is provided by speakers installed in the venue, earphones worn by the performer (IEM (In-Ear Monitor)), etc. Presented mixed with other audio.
  • IEM In-Ear Monitor
  • the auxiliary information indicating the environment of the own terminal is referred to as appropriate, and the reaction video and reaction sound are generated.
  • the auxiliary information is, for example, a time stamp indicating the time of the distributed video being viewed, period information obtained by sensing in the own terminal, tempo information obtained from audio, and the like.
  • FIG. 11 shows the difference between a remote live system to which this technology is applied and a general remote live system.
  • the upper side shows an example of the reaction video presented to the performer, audience A, and audience B in a general remote live system.
  • a penlight is displayed as an object that moves according to the other person's reaction.
  • the lower part of the figure shows an example of the reaction video presented to the performer, audience A, and audience B in the remote live system to which this technology is applied.
  • the penlight is displayed in the reaction video as an object that moves according to the other person's reaction.
  • reaction video/audio that absorbs the reaction gap of others is presented on the own terminal according to the environment of the performer and the audience.
  • the movements do not match.
  • the reaction video presented to the audience A for example, the movement of each of the plurality of objects is aligned, and the reaction video is less unnatural.
  • the server temporarily stores the other people's reaction information, and after synchronizing the timing, the reaction information is sent to all terminals. is disclosed.
  • the present technology can also predict future reaction video/audio from reaction information. It also has advantages.
  • Patent Document 4 a method of generating a reaction video on a server and distributing it to each terminal is also conceivable.
  • this technology differs from Patent Document 4 in that the reaction video (response sound) is generated locally on the own terminal.
  • reaction video/audio that is optimized for the own terminal and absorbs other's reaction deviations
  • the details of the processing in the sensing information analysis unit 51 in the spectator terminal 11 will be described first, and then the processing in the reaction video/audio generation unit 55 of the spectator terminal 11 and the reaction video/audio generation unit 92 of the performer terminal 12 will be explained. Details will be explained.
  • one or more pieces of other person's period information are selected from a plurality of acquired other person's period information, and an example of generating reaction video and reaction sound using the selected other person's period information will be explained.
  • FIG. 12 shows an overview of the first embodiment.
  • FIG. 12 shows a simple configuration of the reaction video/audio generator 55 and the reaction video/audio generator 92 .
  • reaction video/audio generation unit one or more pieces of period information are selected from the received N pieces of other person's period information. Then, based on the selected period information, a reaction video in which a plurality of objects, for example, N, which is the same as the number of inputted period information, moves, and a reaction sound corresponding to the reaction video are generated.
  • auxiliary information indicating the environment of the terminal itself is referred to for selection of periodic information.
  • Patent Document 4 discloses that an image in which a plurality of objects move may be generated from one piece of motion data.
  • the present technology differs from Patent Document 4 in that one or more pieces of reaction information are selected in advance from a plurality of pieces of received reaction information (periodic information) in consideration of the environment of the own terminal. As a result, it is possible to generate a reaction video that is less likely to cause discomfort for the performer or the audience corresponding to the own terminal, which is a unique effect.
  • This technology can be applied regardless of the type of reaction as long as the reaction of the audience has periodicity. Give a specific example of the content. This is because the specific content of the period information changes depending on the content of the reaction video/audio to be presented.
  • the reaction video imitates the movement of the penlight or the movement of the spectator's hand, and is limited to movements in which the penlight or the spectator's hand shakes only to the left or right
  • the period information only one-dimensional information indicating that it swings left and right at a certain period is sufficient.
  • the motion of the object on the reaction video is a motion that uses the whole body, such as headbanging
  • meta information that can restore the motion such as up and down or figure eight is required.
  • the 3D model of the object for generating the reaction video and the sound source (for example, one round of applause) that is the source of the reaction sound, that is, the audio data, are not available when participating in the remote live on the remote live system. are recorded in the spectator terminal 11 and the performer terminal 12 by a method such as downloading from the distributor.
  • the penlight held by the spectator is an object corresponding to the other person's reaction
  • the reaction image is generated in which the penlight moves according to the other person's reaction (movement).
  • the penlight is regarded as an object corresponding to the other person, and the period information indicates that the penlight moves left and right. Assume that a video is generated.
  • the penlight actually held by another person is provided with a sensor such as an acceleration sensor or a gyro sensor.
  • the information shown in FIG. 13 can be used as period information representing the movement of the penlight.
  • the part indicated by arrow Q21 shows an example of periodic information arranged in time series
  • the part indicated by arrow Q22 shows the movement of the penlight.
  • the horizontal axis indicates time
  • the height of the vertical arrow indicates the angle indicating the tilt of the penlight.
  • the state in which the penlight is horizontal that is, the state in which the penlight is parallel to the horizontal plane
  • the angle of the penlight is 0°. Therefore, for example, when the penlight is directed diagonally upward to the right in the figure, the angle of the penlight is 45°, and when the penlight is directed diagonally upward to the left in the figure, the angle of the penlight is 135°.
  • the audience reacts by moving the penlight left and right while watching the distributed video/audio. Then, the following two pieces of information are transmitted as periodic information indicating the reaction of the audience.
  • the period information consists of two pieces of information, "angle" and "half period", and in the figure, the lower the period information, the newer the period information.
  • the angle included in the period information is the angle of the penlight with respect to the horizontal plane at the time when the moving direction (direction) of the penlight changes.
  • half-cycle information changes the moving direction (direction) of the penlight last time (immediately before). It shows the time until change.
  • each spectator terminal 11 generates periodic information consisting of angle information and half-period information at the timing when the moving direction of the penlight changes, and transmits it to the server on the network 14 .
  • the angle of the penlight is 135°, two seconds later the angle of the penlight is 45°, and two seconds after that the angle of the penlight is 135°.
  • the other person's reaction was that the penlight moved left and right at an angle between 45° and 135°. That is, it can be seen that the penlight periodically moves left and right (periodic motion) while changing the direction of movement of the penlight, for example, from the right direction to the left direction.
  • the elapsed time from when the direction of movement of the penlight changes to when the direction of movement of the penlight next changes is the half cycle time of the penlight movement, which is a periodic motion.
  • Each spectator terminal 11 can generate a reaction video by simply notifying the other spectator terminals 11 of such limited information at a very low frequency of a half cycle of movement.
  • Periodic Information Generation Processing processing performed when generating period information will be described. That is, hereinafter, the period information generation processing by the spectator terminal 11 will be described with reference to the flowchart of FIG. 14 .
  • This periodic information generation process is executed at regular intervals, for example, every ten samples of sensing information or several frames of video in synchronization with the acquisition timing of sensing information.
  • step S11 the sensing information analysis unit 51 acquires sensing information from the sensing device 41, and acquires time-series data based on sensing results such as the angular acceleration, angular velocity, and angle of the spectator (pen light) from the acquired sensing information (acquisition do).
  • the sensing information analysis unit 51 outputs sensing information from the sensing device 41 as shown in the center of the figure. is obtained.
  • the sensing device 41 is composed of an acceleration sensor and a gyro sensor, and the sensing information analysis unit 51 acquires time-series data of angular acceleration as sensing information.
  • the sensing information analysis unit 51 processes the time-series data by a predetermined method, such as integrating the time-series data of the angular acceleration thus acquired, so that the movement of the penlight is obtained as shown on the right side of the figure. Obtain time-series data on the angular velocity and angle shown.
  • the angular velocity time series data is obtained by integrating the angular acceleration time series data.
  • the spectator's hand (arm) Motion may be detected.
  • the sensing information analysis unit 51 detects the hands and arms of the spectator by, for example, performing analysis processing on video frames supplied as sensing information, and detects the directions of the hands and arms, that is, the horizontal planes of the hands and arms. You can get the angle for
  • a detector obtained by machine learning such as DNN (Deep Neural Network) may be used, or image recognition of the video frames may be used. Detection may be performed.
  • DNN Deep Neural Network
  • step S12 the sensing information analysis unit 51 detects a change in the direction of movement of the spectator (pen light) based on the time-series data obtained in step S11.
  • the sensing information analysis unit 51 detects the movement indicating the reaction of the audience, that is, the change in direction of the movement of the penlight, based on at least one of the following two criteria.
  • Criterion 1 There are points where the acceleration is maximum and minimum Criterion 2: The sign of the angular velocity changes
  • the polygonal line L11 indicates time-series data of the angular velocity, and in particular, it is assumed that the time-series data of the period T11 portion was obtained in the immediately preceding step S11.
  • the area above the horizontal axis is an area where the angular velocity (movement is leftward) is positive, and the area below the horizontal axis is an area where the angular velocity is negative.
  • the timing (time) at which the sign of the angular velocity changes can be regarded as the timing at which the direction of movement indicating the reaction of the audience changes.
  • the sign of the angular velocity changes from positive to negative. It is detected as the timing when the direction of movement indicating is switched.
  • the range T12 in which the absolute value of the angular velocity is below a certain value is defined as the range of angular velocities in which it is determined that the movement of the spectator has stopped. may be determined to have stopped.
  • the timing (time) at which the angular velocity changes from a value within the range T12 to a value outside the range T12 is detected as the timing at which the direction of movement indicating the reaction of the audience switches.
  • a change in the direction of movement that indicates the audience's reaction may be detected based on the presence or absence of a local maximum or local minimum in the angular acceleration time-series data.
  • the polygonal line L12 on the upper side indicates the time-series data of the angular acceleration.
  • the time-series data of the period T11 is obtained in the immediately preceding step S11.
  • the sensing information analysis unit 51 detects the timing at which the angular acceleration becomes maximum or minimum as the timing at which the direction of movement indicating the reaction of the audience switches.
  • the period T11 in the time-series data of the angular acceleration includes the timing of the minimum.
  • the length of the period T13 from the timing of the maximum just before the period T11 to the timing of the minimum within the period T11 is the half cycle of the movement that indicates the reaction of the audience. It's time for
  • the sensing information analysis unit 51 performs smoothing such as moving average on the time-series data obtained in step S11, and then performs the processing in step S12. You may do so.
  • FIG. 18 shows how the spectator holds the penlight PL11 in his hand and shakes (moves) the penlight PL11 left and right while accumulating.
  • the sensing information analysis unit 51 obtains the time-series data of the angular velocity shown in the lower part of the figure.
  • a polygonal line L21 indicates the time-series data of the angular velocity.
  • the sensing information analysis unit 51 records the elapsed time p stop from when the penlight PL11 was last considered (determined) to be stopped, and the elapsed time p stop is a predetermined period p 1 or more. In this case, it is assumed that the movement of the penlight PL11 is in a state of stagnation.
  • the portion of the period T22 on the polygonal line L21 corresponds to the state shown in the center of the figure, that is, the state where the penlight PL11 is at the right end.
  • the orientation of the penlight PL11 hardly changes when the penlight PL11 is in a reservoir at the right end.
  • step S12 when the process of step S12 was carried out last time, the penlight PL11 was in a state of accumulation. .
  • the sensing information analysis unit 51 supplies the elapsed time p stop at the time when the change in the direction of movement is detected to the transmission unit 52 as additional information indicating the charging time of the penlight PL11.
  • the sensing information analysis unit 51 determines that the movement of the penlight PL11 is not a charging operation. , the movement of the penlight PL11 is assumed to have stopped. Then, the sensing information analysis unit 51 may supply the transmission unit 52 with information indicating that the movement of the penlight PL11 has stopped, that is, that the reaction of the audience has been lost.
  • step S13 the sensing information analysis unit 51 determines whether or not a change in the direction of movement of the spectator (pen light) has been detected by the process of step S12.
  • step S13 If it is determined in step S13 that a direction change has been detected, the sensing information analysis unit 51 generates period information and supplies it to the transmission unit 52 and reaction video/audio generation unit 55 in step S14. It should be noted that the process of step S13 is performed even when additional information indicating the time of accumulation is generated in step S12, for example.
  • the sensing information analysis unit 51 calculates the difference (tt before ) between the time t before when the direction of movement of the spectator (pen light) changed last time and the time t when the direction of movement of the spectator changed this time (tt before ). is obtained as the time (half-cycle information) corresponding to the half-cycle of the movement of the Further, the sensing information analysis unit 51 obtains the angle indicating the movement of the spectator at time t, that is, the angle of the penlight with respect to the horizontal plane, as the angle information.
  • the sensing information analysis unit 51 supplies the obtained information including the semi-period information and the angle information to the transmission unit 52 and the reaction video/audio generation unit 55 as period information.
  • the period information may include additional information indicating the above-described accumulation time and additional information indicating that the reaction of the audience has been lost.
  • one spectator corresponding to the spectator terminal 11 holds a penlight-type grasping device (sensing device 41) in each of his or her right hand and left hand, and these grasping devices are connected wirelessly or the like, a plurality of sensing devices can be used. Information may be obtained.
  • the sensing information analysis unit 51 may perform the above-described steps S11 to S14 twice to generate and transmit period information for each sensing information (sensing device 41). good.
  • one of the penlights Only information may be processed to generate periodic information.
  • step S15 the transmission unit 52 transmits the period information supplied from the sensing information analysis unit 51 to the server on the network 14, and the period information generation process ends.
  • step S13 determines that the direction switching has not been detected. Also, if it is determined in step S13 that the direction switching has not been detected, the period information is not transmitted, so the processes in steps S14 and S15 are not performed, and the period information generation process ends.
  • the spectator terminal 11 generates periodic information based on the sensing information and transmits it to the server on the network 14 .
  • periodic information is generated only when a change in direction of movement of the spectator is detected. Therefore, even when there are many spectator terminals 11, a remote live performance can be realized with a small amount of communication and a small processing load. can.
  • the spectator terminal 11 while performing the periodic information generating process described above, the spectator terminal 11 simultaneously performs content reproduction processing for receiving the others' periodic information and distributed video/audio and presenting presentation video/audio as content.
  • Content reproduction processing performed by the spectator terminal 11 will be described below with reference to the flowchart of FIG. For example, content reproduction processing is performed for each frame of distributed video or distributed audio.
  • step S41 the receiving unit 53 receives the distributed video/audio transmitted from the server on the network 14, more specifically, the encoded distributed video/audio and supplies it to the video/audio decoding unit 54.
  • step S ⁇ b>42 the receiving unit 53 receives period information of other spectator terminals 11 transmitted from the server on the network 14 , ie other person's period information, and supplies it to the reaction video/audio generating unit 55 .
  • step S42 is not necessarily performed when the content reproduction process for one frame is executed, and the process of step S42 is performed at the timing when other person's period information is transmitted.
  • step S43 the distribution video/audio decoding unit 54 decodes the distribution video/audio supplied from the receiving unit 53, and supplies it to the reaction video/audio generating unit 55 and the video/audio superimposing unit 56.
  • step S ⁇ b>44 the reaction video/audio generator 55 generates a reaction video/audio based on the other person's period information supplied from the receiver 53 , and supplies it to the video/audio superimposer 56 .
  • reaction video/audio generation unit 55 appropriately uses the local terminal period information supplied from the sensing information analysis unit 51 and the distribution video/audio supplied from the distribution video/audio decoding unit 54 as auxiliary information. to generate reaction video/audio.
  • step S44 only one of the reaction video and the reaction sound may be generated, or both the reaction video and the reaction sound may be generated. We continue with the assumption that both sounds are generated.
  • step S44 if necessary, a process of generating a correspondence table indicating correspondence between objects and period information is also performed. The details of the generation of the reaction video and reaction sound and the correspondence table will be described later.
  • step S ⁇ b>45 the video/audio superimposing unit 56 generates presentation video/audio based on the distribution video/audio supplied from the distribution video/audio decoding unit 54 and the reaction video/audio supplied from the reaction video/audio generation unit 55 . Sound is generated and supplied to the video/audio output unit 57 .
  • step S46 the video/audio output unit 57 appropriately converts the format of the presentation video/audio supplied from the video/audio superimposing unit 56, and the presentation video/audio obtained as a result. Audio is output to the video/audio output device 42 .
  • the video/audio output device 42 displays the presentation video and outputs the presentation audio. That is, the content provided by the remote live system is played.
  • the presentation video/audio is presented to the audience, the content reproduction process ends.
  • the spectator terminal 11 appropriately generates a reaction video/audio using auxiliary information such as its own terminal period information and distribution video/audio, in other words, information indicating the environment of its own terminal, and generates the reaction video/audio. /Present presentation video/audio obtained from the audio to the audience.
  • the performer terminal 12 receives the periodic information transmitted from the plurality of spectator terminals 11 and performs reaction reproduction processing for presenting the reaction video/audio.
  • reaction reproduction processing performed by the performer terminal 12 will be described with reference to the flowchart of FIG.
  • step S71 the receiving unit 91 receives the period information transmitted from the server on the network 14 and supplies it to the reaction video/audio generating unit 92.
  • step S ⁇ b>72 the reaction video/audio generator 92 generates a reaction video/audio based on the period information supplied from the receiver 91 and supplies it to the video/audio output unit 93 .
  • reaction video/audio generator 92 appropriately uses the externally supplied raw video/audio as auxiliary information to generate the reaction video/audio.
  • step S73 the video/audio output unit 93 appropriately converts the format of the reaction video/audio supplied from the reaction video/audio generation unit 92, and outputs the resulting reaction video/audio.
  • the presentation video/audio is output to the video/audio output device 81 .
  • the video/audio output device 81 displays the reaction video and outputs the reaction audio. Therefore, the performer can play while watching the reactions of many audience members.
  • the reaction video/audio is presented in this manner, the reaction playback process ends.
  • the performer terminal 12 appropriately uses raw video/audio, which is information indicating the environment of its own terminal, as auxiliary information to generate reaction video/audio and presents it to the performer.
  • reaction video/audio generator 55 is configured as shown in FIG. 21, for example.
  • the reaction video/audio generator 55 has a period information selector 121 , a reaction frame generator 122 , and a reaction audio generator 123 .
  • the period information selection unit 121 selects a plurality of pieces of other person's period information. A predetermined number of one or more other person's period information is selected from among them and supplied to the reaction frame generation unit 122 and the reaction sound generation unit 123 .
  • the period information selection unit 121 uses at least one of the local terminal period information supplied from the sensing information analysis unit 51 and the distribution video/audio supplied from the distribution video/audio decoding unit 54 as auxiliary information. is used to select period information.
  • the ID that identifies (specifies) the period information is referred to as the period information ID
  • the period information whose period information ID is n is also referred to as the period information n. It can also be said that this periodic information ID is an ID that specifies the spectator terminal 11 of another person.
  • N pieces of other's period information with period information IDs of 1 to N are received.
  • Two pieces of other person's period information, period information i and period information j (where 1 ⁇ i, j ⁇ N), are selected from the N pieces of other person's period information, and the response frame generation unit 122 and It is supplied to the reaction voice generation unit 123 .
  • the period information selected from a plurality of pieces of other person's period information in the reaction video/audio generation unit 55 and the reaction video/audio generation unit 92 will also be particularly referred to as selected period information.
  • the reaction frame generation unit 122 generates an image of one frame of the reaction video based on the cycle information i and the cycle information j supplied from the cycle information selection unit 121, that is, the selected cycle information, and the video/audio superimposition unit 56 supply to
  • the reaction sound generation unit 123 generates reaction sounds based on the selected cycle information (cycle information i and cycle information j) supplied from the cycle information selection unit 121 and supplies them to the video/audio superimposition unit 56 .
  • reaction video/audio generator 92 is configured as shown in FIG. 22, for example.
  • the reaction video/audio generator 92 has a period information selector 151 , a reaction frame generator 152 , and a reaction audio generator 153 .
  • the periodic information selection unit 151 through the reaction sound generation unit 153 are the same as the periodic information selection unit 121 through the reaction sound generation unit 123 of the reaction video/sound generation unit 55, so description thereof will be omitted. However, the periodic information selection unit 151 is supplied with raw video/audio from the outside as auxiliary information.
  • the period information selection unit 121 selects the most appropriate period information for the own terminal from among the acquired pieces of other person's period information based on selection criteria that will be specifically described below.
  • the period information to be selected may be dynamically changed.
  • the number of selected period information can be dynamically changed.
  • the periodic information to be selected and the number of pieces of selected periodic information can be dynamically changed not only by the periodic information selection unit 121 but also by the periodic information selection unit 151 .
  • the periodic information selection unit 121 selects periodic information with priority given to another selection criterion.
  • the tempo of the distributed audio (or raw audio) that can be acquired using known beat tracking/rhythm recognition technology, DNN, etc., by using the distributed audio (or raw audio) being viewed as an input, that is, the tempo information indicating one night, is cycled. It can be used for information selection.
  • the half-cycle value indicated by the half-cycle information of the period information is the same as the length of one beat of the distributed audio (or raw audio) indicated by the tempo information obtained from the auxiliary information, or The period information closest to the integral multiple of the length of one beat of the voice) is selected as the selected period information. By doing so, it is possible to select period information that is relatively well synchronized with the tempo of the music reproduced by the distributed audio.
  • each piece of period information belongs to one of a plurality of groups, such as a group close to , a group whose half-cycle length is close to 2T, and the like.
  • a group is formed by the average value of the length of the beat. group close to /2”.
  • one or a plurality of pieces of periodic information are selected as selected periodic information from, for example, the group with the largest number of pieces of periodic information belonging to it.
  • the value of the tempo information of the delivered voice obtained by the period information selection unit 121 based on the delivered voice as auxiliary information is 60 BPM [seconds].
  • the periodic information selection unit 121 selects the group to which the largest amount of periodic information belongs from among the plurality of groups, and selects a predetermined number of periodic information from among the periodic information belonging to the selected group based on the half-period information. Periodic information to be used as information is selected.
  • the period information selection unit 121 selects the half period indicated by the half period information from among the period information belonging to that group. A predetermined number of pieces of period information are selected as the selected period information in order from the one closest to 2 seconds.
  • FIG. 1 A more specific example is shown in FIG. 1
  • the period information selection unit 121 has calculated the tempo information of the distributed audio and obtained the tempo information indicating the tempo "60 BPM". In other words, it is assumed that the length of one beat of the distributed voice is one second.
  • period information 1 to period information 7 which are other person's period information, are acquired.
  • Select information For example, period information ID, angle information (angle), and half period information (preceding half period) are shown for each period information 1 to period information 7 .
  • the other person's period information is grouped by integral multiples of the length of one beat based on the length of the half cycle, as shown in the center of the figure, the other person's period information has a half period of 1 second. They are divided into a near group and a group whose half period is near 2 seconds.
  • a total of three pieces of period information, period information 1, period information 3, and period information 6, belong to the "close to one second group", and the remaining period information 2, period information 4, period information 5, and period information A total of four pieces of period information of information 7 belong to the "close to 2 seconds group".
  • the periodic information selection unit 121 selects the group to which more periodic information belongs from the two groups obtained by grouping. Therefore, here, the "group close to 2 seconds" to which the four pieces of period information belong is selected.
  • the period information selection unit 121 selects two pieces of period information as selected period information from the period information belonging to the selected "group close to 2 seconds".
  • period information having a half period close to a value that is an integer multiple of the length of one beat of the distributed audio, here, twice the length of one beat, which is "2 seconds", is selected.
  • the difference is "0.1".
  • the difference between the half period and "2 seconds" is the smallest for the period information 2 whose half period is "2.2", and the difference is "0.2".
  • period information 5 and period information 2 are selected as selected period information. Since these selection cycle information are the cycle information of reactions of others (spectators) most synchronized with the tempo of the delivered voice, they can be said to be appropriate selection cycle information.
  • Periodic information updated (received) at close timing may be selected.
  • the timing at which the period information is updated is exactly the timing at which the direction of swinging the penlight changes, so with this method, it is possible to select the reaction to swing the penlight in sync with the beat of the delivered audio.
  • the periodic information selection unit 121 uses time-series information indicating the occurrence times of beats as shown in the upper part of FIG. is obtained (generated).
  • the horizontal axis indicates time (time), and in the figure, the upward convex arrow indicates the beat generation time in the delivered audio.
  • the period information selection unit 121 acquires the period information 1 shown in the center of the figure and the period information 2 shown in the lower part of the figure, and selects either one of the period information 1 and the period information 2. It shall be selected as selection cycle information.
  • the horizontal axis indicates time (time) in the center and the lower part of the figure
  • the upward convex arrow in the figure indicates the timing when the cycle information is updated, that is, the penlight moving left and right It shows the timing when the direction of movement is switched.
  • the timing at which the period information 1 is updated is compared with the beat occurrence time indicated by the beat information, that is, the timing of the beat, the timings are different. Not appropriate.
  • the period information 2 is appropriate period information for the distributed voice.
  • the period information selection unit 121 preferentially selects the period information 2, which is updated at a timing closer to the generation timing of the beat indicated by the beat information, as the selected period information. .
  • the cycle information selection unit 121 uses the self-terminal cycle information acquired as the auxiliary information from the sensing information analysis unit 51 to select selected cycle information from among a plurality of others' cycle information.
  • the period information ID of the own terminal period information is set to "0", and the own terminal period information is also referred to as period information 0 to distinguish it from period information 1 to period information N, which are other person's period information.
  • the period information selection unit 121 selects other person's period information whose half period is the closest to the half period indicated by the half period information of period information 0, among a plurality of pieces of other person's period information.
  • period information 0 which is the own terminal period information
  • period information 1 to period information 4 which are the other party's period information
  • angle information angle
  • half-cycle information preceding half-cycle
  • half-cycle difference from cycle information 0 are shown for each of cycle information 0 to cycle information 4 .
  • the other's period information having a half period closest to the half period "1.1" of the period information 0 is the period information 1 having a half period difference of "+0.1"
  • the first selected period information Period information 1 is selected as .
  • the next smallest difference from the half period of the period information 0 is the period information 3 whose half period difference is "-0.2”, so this period information 3 is selected as the second selected period information. be done.
  • period information that is updated (received) at the timing closest to the timing when period information 0 is updated, that is, when the movement direction of the spectator's penlight (object) corresponding to the own terminal is switched is selected. You may make it select as period information.
  • period information is obtained at the timing shown in FIG. 27, for example.
  • the horizontal axis indicates time (time), and in the figure, the upward convex arrow indicates the timing at which the period information is updated, that is, the timing at which the moving direction of the penlight that moves left and right is switched. ing. In particular, in the figure, the size of the upward convex arrow indicates the size of the angle information in the period information.
  • the upper side shows the timing when the period information 0 is updated
  • the center shows the timing when the period information 1 is updated
  • the lower side shows the timing when the period information 1 is updated. indicates the timing when the period information 2 is updated.
  • the period information 1 and the period information 2 are acquired by the period information selection unit 121, and one of the period information 1 and the period information 2 is selected as the selected period information.
  • the timing difference (time difference) in updating the period information is significantly smaller than in the case of the period information 1. Therefore, there is a high possibility that the direction of the movement indicating the reaction of the spectator of the own terminal and that of the other person (another spectator) corresponding to the period information 2 are the same.
  • the period information selection unit 121 preferentially selects the period information 2, which has a smaller difference in update timing from the period information 0, as the selected period information from among the period information 1 and the period information 2. As a result, it is possible to more reliably suppress deviations due to factors such as the possibility that the direction of the movement indicating the reaction of the spectator of the own terminal is different from that of the other person (another spectator).
  • Period information can be obtained by performing the same processing as .
  • the periodic information selection unit 121 may generate periodic information from the distribution video, use the periodic information in place of the periodic information 0, and select the selected periodic information by the method described above.
  • the period information selection unit 151 as well, the period information generated from the raw video can be used instead of the period information 0.
  • a distributor particularly a PA (Public Address) person in charge, uses the recording/distribution device 13 or the like to transmit reference period information to the audience terminal 11 or the performer terminal 12 via a server on the network 14.
  • PA Public Address
  • the period information selection unit 121 of the audience terminal 11 and the period information selection unit 151 of the performer terminal 12 use the received reference period information instead of the period information 0 to select selected period information. I do.
  • the received reference period information may be used as one piece of selected period information.
  • This method of using period information as a reference is particularly effective for performances where it is difficult to obtain tempo information.
  • the history of past half-cycle values may be analyzed for each piece of period information, and period information having a small half-cycle variance may be preferentially selected. This is because when the half-cycle variance is small, it is highly likely that the spectator (penlight) is in stable periodic motion.
  • the upper right side and lower right side in the figure show the timing at which the periodic information shown in the upper left side and lower left side in the figure were acquired (received).
  • the horizontal axis indicates time (time)
  • the upward convex arrow indicates the timing at which the period information is updated, that is, the timing at which the moving direction of the penlight that moves left and right is switched.
  • the size of the upwardly convex arrow indicates the size of the angle information in the period information.
  • the half period at each time is a value between 1.1 and 1.5, and it can be seen that the variance of the period information is small.
  • the spectator's reaction to such periodic information that is, the movement of the penlight, is a highly periodic movement that is swung from side to side at regular time intervals.
  • the periodic information selection unit 121 and the periodic information selection unit 151 obtain half-period variance based on the periodic information by analyzing the history of the periodic information for each other user (another person), and calculate the variance obtained. It is preferable to preferentially select the short period information as the selection period information.
  • the half period at each time is a value between 0.3 and 2.7, and it can be seen that the variance of the period information is large.
  • the reaction of the audience (movement of the penlight) corresponding to the periodic information is uneven, and the reaction is a movement with low periodicity.
  • the periodic information selection unit 121 and the periodic information selection unit 151 can select selected periodic information based on the analysis result of the history of other's periodic information received at each time.
  • FIG. 29 shows an example of the correspondence table when 50 objects are displayed in the reaction video.
  • each object corresponds to a spectator corresponding to each spectator terminal 11 .
  • an ID that identifies (specifies) an object on a reaction video is hereinafter referred to as an object ID.
  • the correspondence table defines which selection period information is used to generate each object.
  • object IDs are associated with cycle information IDs of selection cycle information used to generate objects indicated by the object IDs.
  • a reaction video with 50 objects arranged on the screen is generated based on the correspondence table.
  • This periodic information 2 is, for example, periodic information generated by the spectator terminal 11B.
  • the maximum number of objects to be displayed on the reaction video depends on, for example, the screen resolution of the video/audio output device 42 or the video/audio output device 81 on which the reaction video is displayed, the computing resources of the audience terminal 11 or the performer terminal 12, etc. It may be determined based on
  • which object is generated based on which selection cycle information may be determined according to the arrangement position of each object on the reaction video. For example, if objects placed at close positions are generated based on the same selection period information, it is possible to obtain a natural reaction image in which the movements of the objects are uniform.
  • FIG. 30 a correspondence table is shown on the right side of the figure, and a penlight as an object generated according to the correspondence table is shown on the left side of the figure.
  • objects with object IDs of 1 to 3 are generated based on selection cycle information with cycle information ID of 7. Therefore, as shown in the upper left part of the drawing, the objects with object IDs 1 to 3 are moving in the same manner as the movement indicated by the period information 7, and the orientations of these objects are also the same. ing.
  • objects with object IDs of 4 to 6 are generated based on selection cycle information with cycle information ID of 2. Therefore, as shown in the middle row on the left side of the drawing, the objects with object IDs 4 to 6 are moving in the same manner as the movement indicated by the period information 2, and the orientations of these objects are also the same. ing.
  • objects with object IDs of 7 to 9 are generated based on selection cycle information with cycle information ID of 9. Therefore, as shown in the lower left part of the drawing, the objects with object IDs 7 to 9 are moving in the same manner as the movement indicated by the periodic information 9, and the orientations of these objects are also the same. ing.
  • the movement (orientation) of the objects with object IDs 7 to 9 is the movement of the objects with object IDs 1 to 3 and the movement of the objects with object IDs 4 to 6, which are generated from different period information. It can be seen that the movement is different from the
  • the cycle information selection unit 121 supplies the selection cycle information and the correspondence table to the reaction frame generation unit 122 and the reaction sound generation unit 123.
  • the process of selecting selection period information and the process of generating a correspondence table are performed, for example, when the program (song) of a remote live performance changes, or during a period when applause or shouts requesting an increase are uttered. It is conceivable that it is continuously repeated.
  • step S72 in the reaction reproduction process described with reference to FIG. a process of generating (updating) a correspondence table is performed.
  • the reaction video is a video in which the angle of the object, that is, the orientation of the object, changes at the same frame rate as the distribution video (eg, 30 fps).
  • the process of generating the reaction video is periodically executed in synchronization with the process of decoding the distributed video, and an image corresponding to one frame of the distributed video is output.
  • the horizontal axis indicates time (time), and in the figure, the upward convex arrow indicates the timing of updating the period information, that is, the timing of switching the direction of movement of the penlight that moves left and right.
  • the size of the upwardly convex arrow indicates the size of the angle information in the period information, that is, the direction (angle) of the penlight.
  • FIG. 31 shows selected cycle information at each time for one cycle information ID.
  • the current time is t
  • the last time the period information was acquired (received) is t0
  • the angle ⁇ 0 indicated by the angle information forming the period information at time t 0 is 135°
  • the half-cycle length indicated by the half-cycle information forming the period information at time t 0 is T.
  • the time at which the period information was acquired (received) immediately before the time t 0 is ( t 0 ⁇ T ), and the angle ⁇ before is 45°.
  • the angle ⁇ is obtained based on the period information at times t 0 and t 0 , that is, the angle ⁇ 0 , the half cycle T, and the angle ⁇ before at time (t 0 ⁇ T), and the direction indicated by the angle ⁇ is An image of the facing object is generated.
  • the angular velocity is obtained from the two most recently acquired period information.
  • the object is expected to move with the same angular velocity in the opposite direction as it did between time (t 0 ⁇ T) and time t 0 .
  • the angular velocity ⁇ between time t 0 and time (t 0 +T) can be obtained by the following equation (2) by reversing the sign in the above equation (1).
  • the orientation of the object at time t that is, the angle ⁇ indicating the orientation of the object, is obtained from the obtained angular velocity ⁇ .
  • reaction frame generation unit 122 ⁇ Description of reaction frame generation processing> Next, the processing performed by the reaction frame generation unit 122 will be described more specifically.
  • step S44 of the content reproduction process described with reference to FIG. 19 the reaction frame generation unit 122 performs a reaction frame generation process of generating a reaction frame, which is a reaction video for one frame, based on the selection cycle information.
  • reaction frame generation processing performed by the reaction frame generation unit 122 will be described below with reference to the flowchart of FIG.
  • step S101 the reaction frame generation unit 122 acquires an object ID indicating an object to be processed and period information corresponding to the object ID.
  • the reaction frame generation unit 122 acquires and records a correspondence table from the cycle information selection unit 121 in advance.
  • the correspondence table the selection cycle information indicated by the cycle information ID associated with the acquired object ID is Acquired from the period information selection unit 121 .
  • step S102 the reaction frame generation unit 122 determines whether or not the angle ⁇ indicating the direction of the object (penlight) at the current time has been calculated for the acquired selection cycle information.
  • the angle ⁇ is calculated based on the same period information 7 for the object (penlight) with an object ID of 1 and the objects with object IDs of 2 to 25. be.
  • step S102 when the angle ⁇ has already been calculated for the object with the object ID of 1, when the objects with the object IDs of 2 to 25 are to be processed, it is determined that the angle ⁇ has been calculated in step S102. be judged.
  • the angle ⁇ of the object with the object ID of 26 has been calculated, it is determined that the angle ⁇ of the objects with the object IDs of 27 to 35 has been calculated. Further, when the angle ⁇ of the object with the object ID of 36 has been calculated, it is determined that the angle ⁇ of the objects with the object IDs of 37 to 50 has been calculated.
  • step S102 If it is determined in step S102 that the angle ⁇ has not been calculated, the reaction frame generator 122 determines in step S103 whether or not the period information has been updated.
  • step S101 when new selection cycle information that has not been acquired so far is acquired, it is determined that the cycle information has been updated.
  • step S104 the reaction frame generation unit 122 updates the angular velocity ⁇ of the movement of the object.
  • the reaction frame generation unit 122 sets the angle ⁇ 0 indicated by the angle information of the selection cycle information after updating (latest), and the angle ⁇ 0 indicated by the half-cycle information of the selection cycle information after updating.
  • the angular velocity ⁇ is calculated by calculating the following equation (4) based on the half period T that is stored and the angle ⁇ before indicated by the angle information of the selected period information before update. This formula (4) is similar to the above formula (2).
  • the explanation is given assuming that the angle ⁇ before exists. However, when the period information is received for the first time, the angle ⁇ before does not exist. be.
  • step S104 If the process of step S104 has been performed, or if it is determined in step S103 that the cycle information has not been updated, that is, if it is determined that no new selection cycle information has been received, then the process of step S105 is performed.
  • step S105 the reaction frame generation unit 122 calculates the angle ⁇ indicating the direction of movement of the object at the current time t based on the angular velocity ⁇ of the movement of the object.
  • the reaction frame generation unit 122 obtains the angle ⁇ by calculating the following equation (5) based on the time t 0 at which the selection period information was last received, the current time t, the angular velocity ⁇ , and the angle ⁇ 0 .
  • Equation (5) is similar to Equation (3) above.
  • the maximum value ⁇ max or the minimum value ⁇ min of the angle ⁇ is set so that ⁇ max ⁇ ⁇ before or ⁇ min ⁇ ⁇ before , and when the angle ⁇ reaches the maximum value ⁇ max or the minimum value ⁇ min
  • the method of calculating the angle ⁇ may be changed as shown in the following equation (6) until the selection cycle information is updated next time.
  • is a random minute value that indicates the shaking caused by holding the penlight as an object by hand. That is, at this stage the object is held tilted to the right or left.
  • step S102 determines that the angle ⁇ has been calculated. Also, if it is determined in step S102 that the angle ⁇ has been calculated, the processing of steps S103 to S105 is skipped, and the processing proceeds to step S106.
  • step S106 the reaction frame generation unit 122 adds a random value (random value) of a certain amount or less to the angle ⁇ of the object to be processed.
  • step S105 After the process of step S105 is performed or the process of step S106 is performed, the process of step S107 is performed.
  • step S107 the reaction frame generation unit 122 generates, as an object image, an image of one object in which the object to be processed faces the direction indicated by the angle ⁇ .
  • each spectator terminal 11 can change the display method of a specific object based on the meta information by transmitting unique object information (3D model, etc.) as meta information together with period information only once. may be made possible.
  • step S108 the reaction frame generation unit 122 overwrites and arranges the object image of the object to be processed generated in step S107 on the one-frame image (frame image) of the reaction video to be generated.
  • the object image is combined with the frame image.
  • the placement position of the object image on the frame image may be determined in advance for each object ID, or may be dynamically changed according to the screen resolution of the own terminal (video/audio output device 42).
  • objects linked to the same period information ID can be arranged at relatively close positions in the frame image.
  • the reaction frame generation unit 122 performs the processing described above for the number of objects displayed in the reaction video.
  • step S109 the reaction frame generation unit 122 determines whether or not there is an object to be processed that has not yet been processed.
  • step S109 If it is determined in step S109 that there are still objects to be processed, the process returns to step S101 and the above-described processes are repeated. That is, an object that has not yet been processed is treated as a new object to be processed, an object image is generated, and the frame image is updated based on the object image.
  • the reaction frame generation unit 122 converts the (updated) frame image obtained by the last processing in step S108 into a reaction video. is output to the video/audio superimposition unit 56 as an image of one frame, and the reaction frame generation process ends.
  • step S44 of the content reproduction process described with reference to FIG. 19 there are cases where no response sound is generated.
  • the processing in the reaction sound generation unit 123 is not performed, and 0 data (zero data) may be output as the reaction sound from the reaction sound generation unit 123, or the reaction sound may be invalidated. You may do so.
  • equation (7) is an equation obtained by replacing the half cycle T in equation (4) with " Tpstop ", with the accumulation time indicated by the additional information as p stop .
  • the angle ⁇ reaches the maximum value ⁇ max or the minimum value ⁇ min at a relatively early stage, and the movement of the angle ⁇ is small, and the accumulation state is expressed. becomes possible.
  • the reaction frame generation unit 122 generates a reaction video based on the selection period information.
  • the reaction frame generation unit 122 generates object images of a plurality of objects based on one or more pieces of period information selected by the period information selection unit 121, and arranges these object images on the frame image. By doing so, it is possible to present a response image with less sense of incongruity in which the movements (reactions) of a plurality of objects are aligned.
  • step S72 of the reaction reproduction process described with reference to FIG. 20 the reaction frame generation unit 152 performs the same process as the reaction frame generation process described with reference to FIG. Therefore, the performer terminal 12 can also present a response image with little sense of incongruity.
  • reaction video is a video of objects corresponding to the audience clapping
  • reaction sound is the sound of many people clapping
  • the configuration of the remote live system is the configuration shown in FIG. 7, so only the differences from the first embodiment described below will be described here.
  • reaction frame generation unit 122 and the reaction frame generation unit 152 are also the same as in the first embodiment. This is different from the case in
  • the period information does not include angle information (angle information). Since it is possible to generate an image, the description thereof is omitted.
  • the periodic information generated by each audience terminal 11 is such that the audience clapping last time, and then clap this time, as shown on the left side of FIG. It becomes the elapsed time information indicating the elapsed time up to.
  • the elapsed time information is time information indicating the time (length) of one cycle of applause as the reaction of the audience.
  • reaction video including an object that clap motion and a reaction audio consisting of the sound of clapping.
  • the timing of applause is defined based on the time-series periodic information as shown on the right side of the figure.
  • the horizontal axis on the right side indicates time (time), and the upward convex arrow in the figure indicates the timing at which the clapping specified based on one predetermined period information i occurred.
  • the waveform shown on the right side of the figure shows the waveform of the reproduced clapping sound for one object, which consists of the waveform of the clapping sound reproduced at the timing when the clapping occurs.
  • three clapping sounds generated based on the period information i are reproduced.
  • the operation of the sensing information analysis unit 51 is basically the same as in the first embodiment. However, for example, instead of detecting the movement of the audience based on the sensing information, the sound obtained by collecting (recording) the sound with the microphone as the sensing device 41 is analyzed by a known process such as voice interval detection. may be detected, and elapsed time information as period information may be generated from the detection result. That is, the sensing information analysis unit 51 may convert the sound pickup signal as the sensing information into period information.
  • FIG. 34 shows an outline of the operation of the reaction sound generation section 123 and the reaction sound generation section 153. As shown in FIG.
  • the left side of FIG. 34 shows waveforms of reproduced sounds 1 to N for each of N persons, that is, N objects generated based on some selection period information.
  • the process of generating reproduced sounds which are the clapping sounds of one object, is performed N times, and N reproduced sounds 1 to N are generated.
  • these reproduced sounds 1 to N are synthesized, that is, added (summed) to generate one reaction sound.
  • the waveform of the generated reaction sound is shown on the right side.
  • step S44 of the content reproduction process described with reference to FIG. A reaction sound generation process is performed by the sound generation unit 123 .
  • reaction sound generation process performed by the reaction sound generation unit 123 will be described below with reference to the flowchart of FIG.
  • step S141 the reaction sound generation unit 123 acquires an object ID indicating an object to be processed and period information corresponding to the object ID.
  • the reaction sound generation unit 123 acquires and records a correspondence table from the cycle information selection unit 121 in advance.
  • the correspondence table the selection cycle information indicated by the cycle information ID associated with the acquired object ID Acquired from the period information selection unit 121 .
  • step S142 the reaction sound generation unit 123 determines whether or not the period information has been updated. For example, in step S141, when new selection cycle information that has not been acquired so far is acquired, it is determined that the cycle information has been updated.
  • step S143 the response sound generating unit 123 generates 1 A clapping sound for the number of times is generated as a playback sound.
  • the reproduction timing of the clapping sound in the reproduced sounds is always shifted by a certain amount or less. This is because if the reproduction timings of the clapping sounds of a plurality of objects are completely matched, it will look unnatural.
  • step S142 determines whether the period information has been updated. If it is determined in step S142 that the period information has not been updated, the process of step S143 is not performed, and the process proceeds to step S144.
  • step S143 If the process of step S143 has been performed, or if it is determined in step S142 that the period information has not been updated, the process of step S144 is performed.
  • step S144 the reaction sound generation unit 123 determines whether or not there is an object to be processed that has not yet been processed.
  • step S144 If it is determined in step S144 that there are still objects to be processed, the process returns to step S141 and the above-described processes are repeated. That is, an object that has not yet been processed is treated as a new object to be processed, and a reproduced sound is generated for that object.
  • step S145 the reaction sound generation unit 123 generates a reaction sound by synthesizing the reproduced sounds of all the objects generated so far. do.
  • the reaction sound generation unit 123 outputs the generated reaction sound to the video/audio superimposition unit 56, and the reaction sound generation process ends.
  • the reaction sound generation unit 123 generates a reproduced sound for each object based on the selection cycle information, and synthesizes the reproduced sounds to generate a reaction sound.
  • the reaction sound generating unit 123 generates the reproduced sounds of a plurality of objects based on one piece of period information selected by the period information selection unit 121, for example, the sounds (reactions) of the plurality of objects are uniform and there is little sense of incongruity.
  • a reaction voice can be presented.
  • step S72 of the reaction reproduction process described with reference to FIG. 20 the reaction sound generation unit 153 performs the same process as the reaction sound generation process described with reference to FIG. Therefore, the speaker terminal 12 can also present a response sound that does not give a sense of discomfort.
  • FIG. 36 shows the time waveform of the reproduced sound (applause sound) generated for each object based on the selection period information, and the horizontal direction in the figure indicates time (time).
  • the number of objects that is, the number of spectator terminals 11 from which periodic information is obtained is N.
  • the period information selection unit 121 selects all of the received N pieces of period information as the selected period information, and based on the selected period information, reproduces the clapping sound for each object. to generate That is, all period information is passed through.
  • the waveforms of reproduced sounds 1 to N generated for each of N objects are shown on the upper side.
  • the selection cycle information differs for each object, so the clapping sounds are reproduced at different timings according to each cycle information. Therefore, the reaction sound obtained by synthesizing (adding) these reproduced sounds is a sound that sounds like a large number of spectators in the venue clapping at each timing.
  • the periodic information selection unit 121 gradually decreases the number of periodic information items to be selected as selected periodic information from N as time elapses.
  • N the number of pieces of selection cycle information
  • the selection period information is one, for example, reproduced sound 1 to reproduced sound N for each of N objects as shown in the lower part of the figure are obtained.
  • the timing of clapping in each reproduced sound is substantially the same as in the case of the upper part of the figure.
  • the timing of the playback sound (applause sound) corresponding to each object also becomes aligned over time. Therefore, the reaction sound obtained by synthesizing the reproduced sound of each object sounds more like hand clapping than the clapping of many people.
  • the periodic information selection unit 121 may determine that an offer has started when, for example, the periodic information continues for a certain period of time (continuously updated) after the performance ends.
  • the recording/distribution device 13 adds trigger information indicating that an offer has started to the distributed video/audio by the distributor's operation, etc. You may transmit a distribution video/audio to the server of this.
  • a server on the network 14 analyzes the history of past half-cycle values for each piece of period information, and analyzes period information that has a low probability of being selected by each spectator terminal 11 or performer terminal 12, such as an abnormally large variance. may not be delivered.
  • each spectator terminal 11 or performer terminal 12 notifies the server on the network 14 in advance of the approximate number of period information that can be received by the own terminal based on the calculation resources of the own terminal.
  • the server transmits to the audience terminal 11 and the performer terminal 12 only a predetermined number of period information, which is limited based on the number of receivable period information notified in advance. That is, the server performs preliminary screening of periodic information before transmission according to the resources of each terminal.
  • each piece of periodic information is information corresponding to each spectator
  • the server gives priority to periodic information that satisfies a predetermined standard for meta-information such as a coin tip or an item purchase amount (preferential It is conceivable to transmit to each spectator terminal 11 or performer terminal 12).
  • meta information indicating the amount of tipping money may be sent from the server to the audience terminal 11 or the performer terminal 12, either added to the period information or separately. It can be said that this meta-information indicates the user's priority based on the amount of tipping, that is, the priority of periodic information.
  • the period information selection unit 121 of the audience terminal 11 and the period information selection unit 151 of the performer terminal 12 select period information with high priority as selection period information based on the meta information received from the server.
  • the server analyzes the history of past half-cycle values of the spectator terminal 11 and preferentially transmits period information with a small half-cycle variance to each spectator terminal 11 and performer terminal 12. can be considered.
  • the spectator terminal 11 and the performer terminal 12 When transmitting periodic information selectively by these methods, it is recommended that the spectator terminal 11 and the performer terminal 12 separately receive only information about the number of participants in the remote live, that is, the number of spectators, from the server. By doing so, it is possible to keep the number of objects that can be displayed at the audience terminal 11 and the performer terminal 12 unchanged even if the number of periodic information acquired is small.
  • ⁇ Second embodiment> ⁇ Calculation of delay amount and prediction of response>
  • FIG. 37 shows a simple configuration of the reaction video/audio generator 55 and the reaction video/audio generator 92 .
  • the delay amount from the reference time of the own terminal is calculated for the acquired N pieces of period information of the other person, and the reaction video/audio corrected for the delay amount is predicted and generated. .
  • the amount of delay (the amount of delay of the period information of the other person with respect to the reference time) seen from the own terminal is obtained for each reaction of the other person.
  • the delay in the other person's reaction seen from the own terminal is corrected, and a natural reaction image is presented.
  • each spectator terminal 11 first adds the time stamp of the distributed video being viewed on its own terminal to the periodic information to be transmitted. That is, by adding the time stamp of the distribution video (content) being reproduced at the time of generation (generation time) of the periodic information to the periodic information to be transmitted, the distributed video at which time (playback time) the periodic information is Information about whether it is a reaction to is added.
  • n a timestamp added to periodic information n whose periodic information ID is n (for example, 0 ⁇ n ⁇ N) is also referred to as timestamp n.
  • the audience terminal 11 and the performer terminal 12 calculate the delay amount of the period information seen from the own terminal for each of the other person's period information received, based on the reference time of the own terminal.
  • N pieces of period information 1 to period information N are received, and the delay amount is obtained based on the reference time for each of the N pieces of period information.
  • delay information 1 through delay information N indicating delay amounts are obtained for period information 1 through period information N.
  • the reference time at the spectator terminal 11 is, for example, the time of the distributed video being viewed by the spectator terminal 11 itself (own terminal), that is, the reproduction time of the distributed video being reproduced at the present time (current time).
  • the reference time in the performer terminal 12 is the current time acquired in the performer terminal 12, that is, the system time.
  • the delay amount of the periodic information as seen from the own terminal is a value obtained by subtracting the value of the timestamp added to the periodic information from the reference time (reference time - timestamp included in the periodic information).
  • the audience terminal 11 and the performer terminal 12 predict future reaction video/audio for the amount of delay indicated by the delay information from the delay information corresponding to the period information.
  • reaction video/audio obtained by prediction will be at the same time as the distributed video you are watching, so it seems as if the delay in the other person's reaction seen from your own terminal has disappeared. That is, it is possible to obtain the reaction video/audio in which the reaction delay of the other person viewed from the own terminal is corrected.
  • the configuration of the remote live system is the configuration shown in FIG. 7, so only the differences from the first embodiment described below will be described here.
  • NTP Network Time Protocol
  • reaction video/sound generator 55 is configured as shown in FIG. 38, for example.
  • FIG. 38 portions corresponding to those in FIG. 21 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the reaction video/audio generator 55 has a delay amount calculator 181 , a reaction frame generator 122 , and a reaction audio generator 123 .
  • the delay amount calculating unit 181 is supplied with the time-stamped period information of the other person from the receiving unit 53, and is supplied with the reproduction time of the distributed video from the distributed video/audio decoding unit 54 as the reference time of the own terminal. be.
  • N pieces of period information 1 to period information N and N pieces of time stamps 1 to N added to the period information 1 to period information N are supplied to the delay amount calculation unit 181.
  • the reference time of the own terminal supplied from the distributed video/audio decoding unit 54 can be said to be information indicating the environment of the own terminal (spectator terminal 11), like the auxiliary information.
  • the delay amount calculation unit 181 calculates, for each piece of other person's period information, the delay amount of the other person's period information as seen from the own terminal, that is, Delay information is generated that indicates the amount of delay from the reference time of the other's period information.
  • the delay amount calculation unit 181 supplies the other person's period information and the delay information to the reaction frame generation unit 122 and the reaction sound generation unit 123 .
  • delay information 1 to delay information N are generated for each of the supplied period information 1 to period information N, and the period information 1 to period information N and the delay information 1 to delay information N are It is supplied to the reaction frame generator 122 and the reaction voice generator 123 .
  • the reaction video/audio generation unit 55 configured as described above generates delay information using all the received period information of the other person (selected), and the delay information together with the period information is transmitted to the reaction frame generation unit 122 and the reaction frame generation unit 122. It is different from the case of the first embodiment in that it is supplied to the reaction voice generation unit 123 .
  • the configuration of the reaction video/audio generator 92 is also the same as the configuration of the reaction video/audio generator 55 shown in FIG. 38, so illustration and description thereof will be omitted.
  • the system time (current time) acquired by the performer terminal 12 is supplied to the block corresponding to the delay amount calculator 181 as the reference time of the own terminal.
  • the operation of the sensing information analysis unit 51 is basically the same as in the first embodiment, and the sensing information analysis unit 51 performs the periodic information generation process described with reference to FIG.
  • step S14 the sensing information analysis unit 51 not only generates the period information, but also acquires the time stamp of (the frame of) the distribution video being viewed on the own terminal from the distribution video/audio decoding unit 54, and The stamp is added to the period information and supplied to the transmission unit 52 .
  • step S44 of the content reproduction process described with reference to FIG. processing is performed.
  • step S ⁇ b>171 the delay amount calculation unit 181 acquires the other's necessary period information from the reception unit 53 .
  • the time stamp is added to the acquired period information.
  • step S172 the delay amount calculation unit 181 acquires the current reproduction time (for example, time stamp) of the distribution video from the distribution video/audio decoding unit 54 as the reference time of the own terminal.
  • the current reproduction time for example, time stamp
  • the playback time of the distributed video is acquired as the reference time. is obtained.
  • step S173 the delay amount calculation unit 181 calculates the delay amount ⁇ t delay of the period information viewed from the own terminal from the obtained period information and the reference time.
  • the delay amount calculator 181 obtains the delay amount ⁇ t delay by calculating the difference between the reference time and the time stamp added to the period information using the following equation (8).
  • the delay amount calculation unit 181 associates (links) the delay information indicating the delay amount ⁇ t delay obtained in this way with the period information, and supplies them to the reaction frame generation unit 122 and the reaction sound generation unit 123 .
  • step S174 the delay amount calculation unit 181 determines whether or not there is still period information to be processed, that is, whether or not there is period information to be processed. In step S174, when the process of obtaining the delay amount has been performed for the period information of all spectator terminals 11, it is determined that there is no period information to be processed.
  • step S174 If it is determined in step S174 that there is still period information to be processed, the process returns to step S171, and the above-described processes are repeated. That is, the delay amount calculation unit 181 acquires new period information that has not yet been processed from the reception unit 53, and generates delay information for the acquired period information.
  • step S174 if it is determined in step S174 that there is no period information to be processed, the delay amount calculation process ends.
  • the delay amount calculation unit 181 generates, for all the spectator terminals 11, delay information indicating the delay amount of the period information generated by the spectator terminals 11.
  • reaction frame generator 122 (Operation of reaction frame generator) Next, the operation of the reaction frame generator 122 according to the second embodiment will be described. That is, the reaction frame generation processing by the reaction frame generation unit 122 that is executed after the delay amount calculation processing is performed by the delay amount calculation unit 181 will be described.
  • the reaction frame generation unit 122 basically performs the same processing as the reaction frame generation processing described with reference to FIG. .
  • step S105 the angle ⁇ indicating the direction of motion of the object is calculated. 40.
  • the horizontal axis indicates time (time)
  • the upward convex arrow in the figure indicates the timing of updating the period information, that is, the timing of switching the moving direction of the penlight that moves left and right.
  • the size of the upwardly convex arrow indicates the size of the angle information in the period information, that is, the direction (angle) of the penlight.
  • the left side shows the method of calculating the angle ⁇ indicating the direction of the object (penlight) at the current time t, which was explained in the first embodiment.
  • the angle ⁇ is obtained by adding the angle ⁇ (tt 0 ) that changes with the elapsed time (tt 0 ) to the angle ⁇ 0 indicated by the angle information of the periodic information last received at time t 0 .
  • Equation (9) is similar to Equation (3) described above.
  • the angle ⁇ indicating the orientation of the object (penlight) is calculated as shown on the right side of the figure.
  • the response frame generating unit 122 further elapses by the delay amount ⁇ t delay .
  • the angle of the penlight at the time (t+ ⁇ t delay ) is calculated as the angle ⁇ . That is, in equation (9), (tt 0 ) is replaced with (tt 0 + ⁇ t delay ).
  • the angular velocity is ⁇
  • the time when the last period information is received is t 0
  • the angle indicated by the angle information constituting the period information at time t 0 is ⁇ 0
  • the delay of the period information at time t 0 is
  • the angle ⁇ is obtained by the following equation (10).
  • the angle ⁇ obtained in this way is the angle indicating the orientation of the object (penlight) at the time (t+ ⁇ t delay ) that is the delay amount ⁇ t delay ahead of the current time t. is the predicted value of
  • the angle ⁇ 0 is actually an angle indicating the orientation of the object at a time (t 0 ⁇ t delay ) that is a delay amount ⁇ t delay before the time t 0 at which the period information is received. Therefore, the angle ⁇ obtained by Equation (10) is actually a predicted value of the angle indicating the orientation of the object at the current time t. In other words, a more accurate angle ⁇ with the delay amount ⁇ t delay corrected can be obtained by calculating Equation (10).
  • Equation (10) may become longer than the half period T.
  • Equation (10) may be replaced by the following equation (11) from the assumed periodicity. Note that mod in equation (11) indicates a remainder operation.
  • all object IDs and period information IDs correspond one-to-one.
  • step S106 of adding a random value to the calculated angle ⁇ is not performed in the reaction frame generation process.
  • reaction video/audio generation unit 55 has been described above, but the same processing as in the reaction video/audio generation unit 55 is performed in the reaction video/audio generation unit 92 of the performer terminal 12 as well. .
  • reaction video is a video of objects corresponding to the audience clapping
  • reaction sound is the sound of many people clapping
  • the configuration of the remote live system is the configuration shown in FIG. 7, and the reaction video/audio generation unit 55 is configured as shown in FIG.
  • reaction sound generator 153 corresponding to the reaction sound generator 123 in the reaction video/audio generator 92 of the performer terminal 12 is the same as that of the reaction sound generator 123. omitted.
  • the reaction sound generation unit 123 generates reaction sounds as shown in FIG. 41, for example.
  • the period information is the one described with reference to FIG. 33, for example.
  • the horizontal axis indicates time (time), and the upward convex arrow in the figure indicates the timing at which the periodic information is received. indicates the timing at which playback of the
  • the portion indicated by the arrow Q101 shows the playback start timing of the playback sound (applause sound) when there is no delay in the period information, that is, in the ideal case.
  • the playback start timing of the playback sound does not match the ideal playback start timing, as indicated by the arrow Q102.
  • the length of the period T31 represents the delay amount of the period information, that is, the delay amount ⁇ t delay described above.
  • the applause which is the reaction of the audience
  • the timing of the applause is one cycle ahead of the reproduction start timing of the reproduced sound (applause sound) based on the acquired periodic information. can be expected to come.
  • the response sound generation unit 123 obtains the reproduction start timing of the reproduced sound (clapping sound) by subtracting the delay amount ⁇ t delay of the period information from the time of one period indicated by the period information (elapsed time information). Delay by the time (period - delay amount) of the correction amount T32.
  • the reaction sound generation unit 123 basically performs the same processing as the reaction sound generation processing described with reference to FIG.
  • step S143 when the reaction sound generation unit 123 generates a single clapping sound as a reproduction sound based on the period information and the sound data of the clapping sound, the timing at which the reproduction of the clapping sound is started (cycle - delay amount).
  • the reproduction start timing of the reproduced sound is corrected based on the difference between the period indicated by the period information and the delay amount of the period information.
  • the reproduction start timing of the clapping sound is delayed by one period from the ideal reproduction start timing when the period information is not delayed. Since clapping as a reaction of an object is cyclical, by shifting the clapping sound playback start timing by one cycle from the ideal case, the discrepancy in clapping timing caused by the amount of delay in the periodic information is corrected.
  • reaction sounds (reactions) of a plurality of objects are aligned and the reaction sounds are less unnatural. can be presented.
  • reaction video/audio generator 55 and the reaction video/audio generator 92 the period information is selected as in the first embodiment and the delay information is generated as in the second embodiment. may be used to perform correction according to the amount of delay.
  • a technique for selecting periodic information hereinafter also referred to as a periodic information selection technique
  • a technique for performing correction according to the amount of delay hereinafter also referred to as a delay amount correction technique
  • the own terminal that is, the audience terminal 11 or the performer terminal 12 is a PC, a game machine, etc.
  • the delay amount correction method which has a relatively wide range of expressions. be done.
  • the own terminal that is, the audience terminal 11 or the performer terminal 12
  • the audience terminal 11 or the performer terminal 12 is a device with relatively insufficient resources such as a smartphone or a tablet
  • it is recommended to mainly use the periodic information selection method with a relatively low computational load. can be considered to be
  • the configuration of the remote live system is the configuration shown in FIG.
  • the configuration of the sound generator 92 will be described.
  • reaction video/audio generator 92 since the configuration and operation of the reaction video/audio generator 92 are basically the same as those of the reaction video/audio generator 55, the reaction video/audio generator 55 will be described below. Description of the generator 92 is omitted.
  • the configuration of the reaction video/audio generation unit 55 can be considered in several configurations depending on how the periodic information selection method and the delay amount correction method are combined. 181 are cascade-connected.
  • reaction video/audio generator 55 is configured as shown in FIG. In FIG. 42, portions corresponding to those in FIG. 21 or FIG. 38 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the reaction video/audio generation unit 55 shown in FIG. 42 has a period information selection unit 121, a delay amount calculation unit 181, a reaction frame generation unit 122, and a reaction sound generation unit 123.
  • the periodic information selection unit 121 is supplied with the periodic information 1 to the periodic information N received from the N audience terminals 11 from the receiving unit 53 .
  • Time stamp 1 to time stamp N are added to the period information 1 to period information N, respectively.
  • the cycle information selection unit 121 is supplied with the own terminal cycle information from the sensing information analysis unit 51 and the distribution video/audio from the distribution video/audio decoding unit 54 as auxiliary information. Note that live video/audio is supplied to the performer terminal 12 as auxiliary information.
  • the period information selection unit 121 selects M (M ⁇ N) pieces of N or less from among the supplied N pieces of other person's period information based on the auxiliary information. is selected as selected period information.
  • the period information selection unit 121 supplies the M pieces of period information selected as the selected period information and the time stamps added to the period information to the delay amount calculation unit 181 .
  • the periodic information selection unit 121 determines the number M of pieces of periodic information to be selected based on the computational resources of its own terminal (spectator terminal 11) at the present time.
  • the number M of selected period information should be increased. should be For example, if the number M of selected period information is M ⁇ N, most of the received period information is passed through and supplied to the delay amount calculation unit 181 .
  • the delay amount calculation unit 181 as in the case of the second embodiment, from the distribution video/audio decoding unit 54, as the reference time of the own terminal, the distribution video being reproduced by the spectator terminal 11 itself (own terminal) is received. Playback time is supplied. Note that the presenter terminal 12 is supplied with the system time as the reference time of its own terminal.
  • the delay amount calculation unit 18 calculates the , and the supplied reference time of its own terminal to generate delay information.
  • the delay amount calculation unit 181 supplies the M pieces of period information selected as the selection period information and the M pieces of delay information corresponding to the pieces of period information to the reaction frame generation unit 122 and the reaction sound generation unit 123 .
  • the reaction frame generation unit 122 generates a reaction video based on the M pieces of period information and the delay information supplied from the delay amount calculation unit 181 in the same manner as in the second embodiment.
  • a reaction video in which M object images are superimposed may be generated, or a reaction video in which N object images are superimposed is generated by generating a plurality of object images from one cycle information.
  • a video may be generated.
  • reaction sound generation unit 123 also generates a reaction sound in the same manner as in the other example 1 of the second embodiment, based on the M pieces of period information and the delay information supplied from the delay amount calculation unit 181. do.
  • a response sound composed of reproduced sounds of M objects may be generated, or by generating reproduced sounds of a plurality of objects from one period information, A different reaction voice may be generated.
  • step S106 adds a random value to the appropriately calculated angle ⁇ . is performed.
  • the reproduction timing of the clapping sound in the reproduced sound must be less than a certain amount when performing the processing of step S143. Made to be shifted by time.
  • the series of processes described above can be executed by hardware or by software.
  • a program that constitutes the software is installed in the computer.
  • the computer includes, for example, a computer built into dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 43 is a block diagram showing an example of the hardware configuration of a computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 505 is further connected to the bus 504 .
  • An input unit 506 , an output unit 507 , a recording unit 508 , a communication unit 509 and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 consists of a keyboard, mouse, microphone, imaging device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • a recording unit 508 is composed of a hard disk, a nonvolatile memory, or the like.
  • a communication unit 509 includes a network interface and the like.
  • a drive 510 drives a removable recording medium 511 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executes the above-described series of programs. is processed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as package media, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input/output interface 505 by loading the removable recording medium 511 into the drive 510 . Also, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • this technology can take the configuration of cloud computing in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the flowchart above can be executed by a single device, or can be shared by a plurality of devices.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • this technology can also be configured as follows.
  • a receiving unit that receives reaction information indicating reactions of other users generated by each of a plurality of other terminals different from the own terminal;
  • An information processing apparatus comprising: a generation unit that generates presentation video or presentation audio corresponding to reactions of the plurality of other users based on the plurality of reaction information and environment information indicating the environment of the own terminal.
  • a reaction information generation unit that generates the reaction information indicating the reaction of the user corresponding to the own terminal based on the information acquired by the sensor;
  • the information processing apparatus further comprising: a transmission unit that transmits the reaction information indicating the reaction of the user.
  • the information processing apparatus includes at least one of a camera, a microphone, an acceleration sensor, a gyro sensor, and a geomagnetic sensor.
  • the reaction information is period information based on a reaction period.
  • the environment information is at least one of video of content, audio of content, and reaction information indicating a reaction of a user corresponding to the own terminal. information processing equipment.
  • the generation unit generates the presentation video or the presentation sound based on a predetermined number of the reaction information selected from the plurality of the reaction information received by the reception unit; The information processing device according to any one of .
  • the information processing apparatus selects the predetermined number of reaction information based on tempo information or beat information obtained from audio of content.
  • the generation unit selects the predetermined number of the reaction information based on the reaction information indicating the reaction of the user corresponding to the own terminal.
  • the generation unit selects the predetermined number of pieces of reaction information based on an analysis result of a history of the reaction information indicating reactions of the other users.
  • the generation unit selects the predetermined number of the reaction information based on meta information of the reaction information indicating the other user's reaction.
  • the information processing apparatus according to any one of (6) to (10), wherein the generation unit dynamically changes the reaction information to be selected and the number of the reaction information to be selected. (12) The generation unit calculates a delay amount of the received reaction information indicating a reaction of the other user with respect to a reference time in the own terminal, and calculates the delay amount based on the reaction information indicating the reaction of the other user and the delay amount.
  • the information processing apparatus according to any one of (1) to (11), wherein the presentation video or the presentation sound is generated by (13)
  • the information processing apparatus calculates the delay amount based on a time stamp of content at the time of generation of the reaction information, which is added to the reaction information indicating the reaction of the other user.
  • the information processing apparatus according to any one of (1) to (13), wherein the generating unit generates, as the presentation image, an image of an object that moves according to the reaction information indicating the reaction of the other user. .
  • the information processing device according to item 1.
  • the generating unit determines the number of reaction information to be selected based on computational resources of the own terminal.
  • the information processing device Receiving reaction information indicating reactions of other users generated by each of a plurality of other terminals different from the own terminal, An information processing method, comprising generating presentation video or presentation audio corresponding to reactions of the plurality of other users based on the plurality of reaction information and environment information indicating the environment of the own terminal.
  • An information processing method comprising generating presentation video or presentation audio corresponding to reactions of the plurality of other users based on the plurality of reaction information and environment information indicating the environment of the own terminal.
  • 11A to 11C, 11 audience terminal, 12 performer terminal, 14 network, 41 sensing device, 51 sensing information analysis unit, 52 transmission unit, 53 reception unit, 55 reaction video/audio generation unit, 56 video/audio superimposition unit, 57 video / Audio output unit, 91 reception unit, 92 reaction video/audio generation unit, 121 period information selection unit, 122 reaction frame generation unit, 123 reaction audio generation unit, 181 delay amount calculation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本技術は、より違和感の少ない映像または音声を提示することができるようにする情報処理装置および方法、並びにプログラムに関する。 情報処理装置は、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、複数の反応情報と、自端末の環境を示す環境情報とに基づいて、複数の他のユーザの反応に対応する提示映像または提示音声を生成する生成部とを備える。本技術はリモートライブシステムに適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は、情報処理装置および方法、並びにプログラムに関し、特に、より違和感の少ない映像または音声を提示できるようにした情報処理装置および方法、並びにプログラムに関する。
 近年、多数のリモートライブイベントが開催されているが、観客自身がイベントに参加している感覚やライブの一体感を得ることが困難である。
 そこで、観客の反応をヘッドマウントディスプレイや加速度センサ等でセンシングし、センシングにより得られた情報を動き情報等に変換して他者の端末に送信すると同時に、同様の方法で送信された他者の反応を受信する方法が提案されている。この方法では、受信した他者の反応をペンライトやアバタ等のオブジェクトが動く映像として提示することで、観客のイベントへの参加意識を誘起することができる。
 例えば図1の矢印Q11に示す映像を配信する場合に、自端末で受信した他者の反応を示す動き情報から、矢印Q12に示すオブジェクトの動く映像を生成すれば、矢印Q13に示すように配信された映像に、オブジェクトの動く映像を重畳して提示することができる。そうすれば、自端末でライブ等の映像を鑑賞している観客に対してイベントへの参加意識を誘起することができる。
 このような技術として、例えば特許文献1には、仮想空間上のライブイベントにおける図1を参照して説明した概念の実施方法が開示されている。
 具体的には、観客に装着したHMD(Head Mounted Display:ヘッドマウントディスプレイ)と種々のセンサからなるシステムによって、観客に仮想空間上で開催するライブイベントの映像が提示されるとともに観客の動きがセンシングされ、そのセンシング結果が位置情報や動き情報としてサーバに送信される。同時に、他の観客から得られた動き情報等がサーバから受信され、その動き情報等が用いられて仮想空間上で他の観客に対応するアバタが動く映像が提示される。
 また、特許文献2では、実会場とリモートの両方でライブイベントに参加できる場合に、ライブイベント会場に設置されたディスプレイにリモートで参加する観客の反応を提示する方法が開示されている。
 すなわち、リモートでライブイベントに参加する観客の反応がセンシングされて動作情報としてライブ会場に送信され、その動作情報に基づいてオブジェクトが動く映像が生成される。演目を実施する演者やライブ会場にいる観客は、この映像を会場に設置されたディスプレイで見ることにより、リモートで参加する観客の反応を確認でき、リモートで参加する観客も一体となってライブを作り上げる感覚が誘起される。
 非特許文献1でも特許文献2における場合と同様のシステムが開示されており、カメラで撮影した観客の反応がライブ会場に送信され、ライブ会場でその様子が表示される。この様子は配信映像として観客に再配信される。
 その他、サーバで他者の反応情報を一時的に記憶し、タイミングを合わせてから全端末に反応情報を再送信する方法(例えば、特許文献3参照)や、反応映像をサーバで生成して各端末に配信する方法(例えば、特許文献4参照)も提案されている。
特開2019-50576号公報 特開2013-21466号公報 特開2019-192178号公報 特開2020-194030号公報
"Beyond LIVE",[online],[令和3年6月22日検索],インターネット〈URL:https://campaign.naver.com/pr/v/beyondlive/ja/〉
 しかしながら、上述した技術では、違和感の少ない映像や音声を提示することはできなかった。
 例えば特許文献1や特許文献2、非特許文献1に記載の技術では、受信した他の観客からの反応情報(動作情報、動き情報等)には通信路に依存する相異なる遅延があるため、提示される各観客の反応は意図と関係なくずれてしまう。その結果、観客のイベントへの参加意識を高め、ライブの一体感を得るという本来の目的を果たすことができなくなってしまうおそれがある。これと同様のことが特許文献4でも生じてしまう。
 また、例えば特許文献3では、サーバでタイミングを合わせてから反応情報を全端末に再送信するにあたり、遅延量の大きい端末にタイミングを合わせる必要があるから、反応情報の遅延が増大してしまう。そのため、現実的には特許文献3に記載の技術では多人数のライブに適応することは困難である。
 本技術は、このような状況に鑑みてなされたものであり、より違和感の少ない映像または音声を提示できるようにするものである。
 本技術の一側面の情報処理装置は、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する生成部とを備える。
 本技術の一側面の情報処理方法またはプログラムは、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成するステップを含む。
 本技術の一側面においては、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報が受信され、複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声が生成される。
他者の反応から生成した映像の重畳について説明する図である。 特許文献1に記載のシステムについて説明する図である。 観客の反応のずれについて説明する図である。 特許文献2に記載のシステムについて説明する図である。 観客の反応のずれについて説明する図である。 反応のずれにより一体感が損なわれる例について説明する図である。 リモートライブシステムの構成例を示す図である。 送信情報と受信情報について説明する図である。 観客端末の構成例を示す図である。 演者端末の構成例を示す図である。 一般的なリモートライブシステムとの違いを説明する図である。 本技術の概要について説明する図である。 周期情報について説明する図である。 周期情報生成処理を説明するフローチャートである。 センシング情報について説明する図である。 センシング情報について説明する図である。 反応を示す動きの向きの切り替わりについて説明する図である。 溜め動作について説明する図である。 コンテンツ再生処理を説明するフローチャートである。 反応再生処理を説明するフローチャートである。 反応映像/音声生成部の構成例を示す図である。 反応映像/音声生成部の構成例を示す図である。 テンポ情報に基づく周期情報の選択について説明する図である。 テンポ情報に基づく周期情報の選択について説明する図である。 ビート情報に基づく周期情報の選択について説明する図である。 自端末周期情報に基づく周期情報の選択について説明する図である。 自端末周期情報に基づく周期情報の選択について説明する図である。 半周期の分散に基づく周期情報の選択について説明する図である。 対応テーブルの例を示す図である。 対応テーブルに基づくオブジェクトの生成について説明する図である。 反応映像の生成について説明する図である。 反応フレーム生成処理を説明するフローチャートである。 周期情報について説明する図である。 反応音声の生成について説明する図である。 反応音声生成処理を説明するフローチャートである。 選択周期情報の数と反応音声の変化について説明する図である。 本技術の概要について説明する図である。 反応映像/音声生成部の構成例を示す図である。 遅延量算出処理を説明するフローチャートである。 反応映像の生成について説明する図である。 反応音声の生成について説明する図である。 反応映像/音声生成部の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈反応のずれの発生について〉
 上述のように、他者の反応を受信し、その他者の反応をペンライトやアバタ等のオブジェクトが動く映像として提示する一般的なシステムでは、他者の反応の受信時に、通信路に依存する遅延が生じるため、提示される各観客の反応は意図と関係なくずれてしまう。
 このような他者(観客)の反応のずれの例について、図2乃至図5を参照して説明する。
 なお、実際には観客は多数存在するが、図示の都合上、観客A乃至観客Cの3人分のみ示されている。また、説明を簡単にするため、「観客」とは人物そのものに加え、配信映像の提示やセンシングされた反応を他者へ送信する機能を有する各個人に対応した端末も含めることとする。同様に「演者」とは人物そのものに加え、演者が行う演目を録画/録音してサーバに送信する配信者も含めることとする。
 図2および図3は、上述の特許文献1に記載のシステムについて説明するものである。
 図2には特許文献1に記載されたシステムを、説明のために簡略化したものが示されている。このシステムでは、演者が演目を録画/録音して、配信映像/音声としてサーバに送信し、各観客はサーバから配信映像/音声を受信する。
 各観客は配信映像/音声を視聴しながら自身の反応をセンシングし、動き情報として他の観客に送信する。同時に各観客側では、多数の他の観客の動き情報が受信され、それらの動き情報が用いられて他者の反応に相当する映像や音声が生成され、生成された映像/音声が配信映像/音声に重畳されて観客に提示される。
 例えば、観客Aは配信映像/音声に加え、他者すなわち観客Bや観客Cなど、他の多数の観客の反応がオブジェクト(アバタ等)の動く映像になって重畳された映像を見ることになる。
 しかし、当システムでは、例えば図3に示すように、観客ごとに異なる通信路遅延があるために、ある観客からみた他者の反応(動き情報)がずれてしまう。
 図3は、観客Aがある時刻の配信映像を受信したタイミングを起点として、観客Aに通知された他者、すなわち観客Bと観客Cの反応が、観客Aから見てどの程度遅延しているのかを示したタイミングチャートである。
 図2のシステムでは、観客ごとに異なる通信路遅延が生じるので、ある時刻の配信映像が観客A、観客B、観客Cに届く時刻はそれぞれ異なる。また、観客B、観客Cの反応が、観客Aに届くまでにかかる時間もそれぞれ異なる。したがって、観客Aが見ている映像に対して観客B、観客Cの反応が遅延しているうえに、その遅延量が異なるから、観客Aから見た観客B、観客Cの反応は意図せずばらばらにずれることになる。
 図4および図5は、上述の特許文献2に記載のシステムについて説明するものである。
 図4には特許文献2に記載されたシステムを、説明のために簡略化したものが示されている。このシステムは、図2に示したシステムに近いものであるが、観客の反応として動き情報が演者(ライブ会場)にのみ通知される点が図2のシステムとは異なる。
 すなわち、図4に示すシステムでは、演者が演目を録画/録音して得られた配信映像/音声は、サーバにより各観客に配信される。また、各観客側でセンシングにより得られた動き情報が演者に送信され、演者側では、各観客の動き情報が用いられてオブジェクトの動く映像が生成され、提示される。
 このような図4に示すシステムにおいても演者から見た他者の反応がそれぞれずれる。その理由は、例えば図5に示すように、演者がある動作を行い、その様子を配信するタイミングを起点としたタイミングチャートにおいて、演者と観客B、観客Cとの間に図3を参照して説明した例と全く同様の関係性があるからである。
 なお、特許文献4のように、他者の反応に相当する映像をサーバで生成し、その生成した映像を配信映像に重畳して配信する場合にも同様の反応のずれが生じる。その理由は、図5における「演者」を「サーバ」に置き換えれば、サーバと観客B、観客Cとの間に図5の例における場合と全く同様の関係性があるからである。
 以上のように「自分から見た他者の反応のずれ」によって、ライブの一体感が損なわれてしまう。その様子について図6を参照して説明する。
 多人数のライブを想定すると、図中、左側に示すように例えば観客Aに対して他の観客B乃至観客Jからの反応は相異なる遅延がある。
 したがって、観客Aから見た他者の反応を示す映像は、図中、右上側に示すように理想的にはオブジェクトの動きが皆揃ってほしい条件下でも、現実的には図中、右下側に示すように観客の意図とは無関係にずれてしまう。
 そこで、本技術では、他者の反応をオブジェクトの動く映像または音声として提示するリモートライブシステム等において、ある端末から見た遅延量が相異なることによって生じる違和感を効果的に防ぐことができるようにした。換言すれば、より違和感の少ない映像または音声を提示できるようにした。
〈リモートライブシステムの構成例〉
 それでは、以下、本技術について詳細に説明する。特に、以下では、本技術をリモートライブシステムに適用した例について説明する。
 まず、本技術の説明で用いる用語について説明する。
(演者)
 「演者」とは、ライブイベントで演奏等の演目を実施する人物である。なお本技術の主たる対象はリモートで開催されるライブコンサートであるが、演目はこれに限定されず、演劇やスポーツ等も含まれる。
(観客)
 「観客」とは、ライブイベントにリモートで参加する観客、(視聴者であるユーザ)である。観客は、後述する観客端末によって提示される映像/音声を見ながら、センシング用の専用機器や端末を動かしたり、体を動かしたり、拍手をしたりといった反応を行う。
(反応情報)
 「反応情報」とは観客の反応を示す情報であり、後述する周期情報や、動き情報等の総称である。
(反応映像)
 「反応映像」とは、主に他者の反応情報から生成される、他者に対応するオブジェクトが動く映像のことである。例えば反応映像は、ペンライトが左右に揺れる映像、人間を模したアバタの頭や手、腕が前後または左右に振れる映像などである。
(反応音声)
 「反応音声」とは、主に他者の反応情報から生成される音声である。例えば、反応音声は会場の拍手音、掛け声などの音声である。
(周期情報)
 「周期情報」とは、反応情報の1つであり、例えば演目に連動して生じるペンライトの動き、体の動き、拍手音のように周期性を持つ観客の反応に対して、その反応の周期を示す情報(反応の周期に基づく情報)のみに単純化された情報である。例えばペンライトの動きを反応映像として提示する場合には、ペンライトが45°から135°の角度で動き、その動きの周期は3秒であるといった情報などが周期情報とされる。
(演者端末)
 「演者端末」とは、演者に対応する端末であり、反応情報を受信し、反応映像、反応音声を演者に提示する。
(観客端末)
 「観客端末」とは、各観客に対応する端末であり、配信映像/音声および反応情報を受信し、反応映像、反応音声と配信映像/音声を重畳させ観客に提示する。また、観客端末は、自端末に対応する観客の反応をセンシングして解析し、他の端末に送信する機能も有する。
 図7は、本技術を適用したリモートライブシステムの一実施の形態の構成例を示す図である。
 図7に示すリモートライブシステムは、観客端末11A、観客端末11B、観客端末11Cを含む多数の観客端末、演者端末12、収録/配信装置13、およびネットワーク14を有している。
 特に、ここでは図を見やすくするため、観客端末として、観客Aの観客端末11A、観客Bの観客端末11B、および観客Cの観客端末11Cのみが図示されているが、実際には他の多数の観客の観客端末もネットワーク14に接続されている。
 なお、以下、観客端末11A乃至観客端末11Cを含む多数の観客端末を特に区別する必要のない場合、単に観客端末11とも称することとする。
 リモートライブシステムでは、観客端末11、演者端末12、および収録/配信装置13は、図示せぬサーバを含むネットワーク14に接続されている。
 演者によって行われる演目は、明示されない配信者によって収録/配信装置13により録画および録音され、符号化された後に配信映像/音声として、サーバを含むネットワーク14に送信される。
 すなわち、収録/配信装置13が録画(撮影)を行うことで、演者を被写体として含む配信映像、より詳細には配信映像の映像データ(配信映像データ)が得られる。また、収録/配信装置13が録音(収音)を行うことで、演者の音声等を含む配信音声、より詳細には配信音声の音声データ(配信音声データ)が得られる。これらの配信映像と、その配信映像に付随する配信音声とからなるコンテンツが観客端末11に配信される。
 なお、観客端末11に配信されるコンテンツは、配信映像と配信音声の少なくとも何れか一方であればよい。以下では、配信映像および配信音声、すなわち配信映像データと配信音声データからなるデータを配信映像/音声とも記すこととする。
 収録/配信装置13は、配信映像/音声が得られると、その配信映像/音声を符号化し、その結果得られた符号化配信映像/音声をネットワーク14上のサーバに送信する。
 サーバは、収録/配信装置13から送信されてきた符号化配信映像/音声を、ネットワーク14を介して観客端末11A乃至観客端末11Cを含む多数の観客端末11へと送信(配信)する。
 なお、以下、観客端末11に送信される符号化配信映像/音声を、単に配信映像/音声とも称する。また、以下において、収録/配信装置13による撮影および収音で得られる映像/音声を、その映像/音声を符号化等してネットワーク14上のサーバにより配信される符号化配信映像/音声と特に区別する場合には、それらの撮影および収音により得られた映像/音声を生映像/音声とも称することとする。
 観客端末11は、例えばスマートフォン、タブレット、ゲーム機、パーソナルコンピュータ等の情報処理装置(端末装置)からなる。
 観客端末11は、ネットワーク14(サーバ)を介して収録/配信装置13により送信(配信)された符号化配信映像/音声を受信するとともに、受信した符号化配信映像/音声に対する復号を行い、配信映像/音声を得る。
 また、観客端末11は、配信映像/音声の復号と同時に周期情報の送信と受信も行う。
 すなわち、観客端末11は、自身(観客端末11)に対応する観客の反応について周期情報を生成し、その周期情報を、ネットワーク14(サーバ)を介して他の観客端末11や演者端末12へと送信する。また、観客端末11は、ネットワーク14(サーバ)を介して複数の他の観客端末11から、それらの他の観客端末11に対応する他の観客の反応についての周期情報を受信する。
 例えば、この例では観客端末11Aは、観客Aの反応についての周期情報を生成して送信するとともに、観客端末11Bや観客端末11Cから、観客Bの反応についての周期情報や、観客Cの反応についての周期情報を受信する。
 観客端末11は、受信した周期情報を用いて、自端末上で複数の他の観客(他のユーザ)の反応を示す反応映像および反応音声を生成する。また、観客端末11は、反応映像/音声を復号済みの配信映像/音声に重畳させ、対応する観客に対して映像(以下、提示映像とも称する)と音声(以下、提示音声とも称する)を提示する。
 なお、提示映像は、配信映像に反応映像を重畳したものであってもよいし、反応映像のみであってもよい。同様に、提示音声は、配信音声に反応音声を重畳(合成)したものであってもよいし、反応音声のみであってもよい。
 演者端末12は、例えばコンピュータ等の情報処理装置(端末装置)からなる。
 演者端末12は、観客端末11における場合と同様に、ネットワーク14(サーバ)を介して、複数の各観客端末11から、観客の反応についての周期情報を受信する。演者端末12は、受信した周期情報を用いて、自端末上で複数の観客の反応を示す反応映像および反応音声を生成し、演者に対して提示する。
 以上のようなリモートライブシステムにおいて、収録/配信装置13により配信されるリモートライブ、すなわち配信映像/音声を視聴する観客が観客A乃至観客Cの3名である場合、各装置で送信および受信する情報は、図8に示すようになる。
 収録/配信装置13と演者端末12を配信側の1つの装置として考えると、その配信側の装置の受信する情報(受信情報)は、観客A、観客B、および観客Cの各観客について生成された周期情報である。つまり、配信側の装置は、観客端末11A乃至観客端末11Cのそれぞれから、観客A乃至観客Cのそれぞれについての周期情報を受信する。
 また、配信側の装置が送信する情報(送信情報)は、リモートライブの映像と音声である配信映像/音声となる。
 観客端末11Aにおいては、受信情報は配信映像/音声、観客Bについての周期情報、および観客Cについての周期情報であり、送信情報は観客Aについての周期情報である。
 同様に、観客端末11Bにおいては、受信情報は配信映像/音声、観客Aについての周期情報、および観客Cについての周期情報であり、送信情報は観客Bについての周期情報である。観客端末11Cにおいては、受信情報は配信映像/音声、観客Aについての周期情報、および観客Bについての周期情報であり、送信情報は観客Cについての周期情報である。
 このように、演者端末12と観客端末11では、ともに他者の周期情報が受信され、さらに各観客端末11では、周期情報に加えて配信映像/音声も受信される。
〈観客端末の構成例〉
 観客端末11は、例えば図9に示すように構成される。
 この例では、観客端末11にはセンシングデバイス41および映像/音声出力装置42が接続されている。
 観客端末11は、主に以下に示す機能を有している。
  ・センシングした観客の反応を解析し、周期情報として送信
  ・符号化された配信映像/音声を受信し、復号
  ・他者の周期情報を受信し、反応映像、反応音声を生成
  ・配信映像/音声と、反応映像/音声を重畳して出力
 観客端末11は、センシング情報解析部51、送信部52、受信部53、配信映像/音声復号部54、反応映像/音声生成部55、映像/音声重畳部56、および映像/音声出力部57を有している。
 センシング情報解析部51は、センシングデバイス41によりセンシングされた観客の反応をセンシング情報としてセンシングデバイス41から取得し、そのセンシング情報を周期情報に変換して送信部52および反応映像/音声生成部55に供給する。換言すれば、センシング情報解析部51は、センシング情報に基づいて、反応情報として周期情報を生成する反応情報生成部として機能する。
 センシングデバイス41は、例えばカメラ(イメージセンサ)、マイクロフォン、加速度センサ、ジャイロセンサ、地磁気センサ等の1または複数のセンサを搭載するデバイスからなる。具体的には、例えばセンシングデバイス41は、観客端末11に対応する観客(ユーザ)に装着されるヘッドマウントディスプレイや、観客により把持されるペンライト型のデバイスなどとされる。
 センシングデバイス41は、観客を被写体とする映像、観客の音声、観客の動きを示す角加速度や角速度などを観客の反応としてセンシングし、その結果得られたセンシング情報をセンシング情報解析部51へと供給する。なお、センシングデバイス41は、観客端末11の外部に設けられて観客端末11に接続されるようにしてもよいし、観客端末11の内部に搭載されているようにしてもよい。
 また、周期情報は補助情報として反応映像/音声生成部55へと通知(供給)される。そのため、反応映像/音声生成部55では、必ずしもセンシング情報解析部51から供給された周期情報が用いられる必要はない。
 送信部52は、センシング情報解析部51から供給された周期情報を、ネットワーク14上のサーバに送信する。サーバに送信された周期情報は、演者端末12や他の観客端末11へと通知(送信)される。
 受信部53は、ネットワーク14上のサーバから符号化配信映像/音声を受信し、配信映像/音声復号部54へと供給する。
 また、受信部53は、ネットワーク14上のサーバから他者(他の観客)の反応情報として、他者の周期情報を多数受信(取得)し、反応映像/音声生成部55に供給する。すなわち、受信部53は、自端末とは異なる複数の他の観客端末11のそれぞれで生成された、複数の他のユーザ(他の観客)のそれぞれの反応情報を受信する。
 配信映像/音声復号部54は、受信部53から供給された符号化配信映像/音声を復号し、その結果得られた配信映像/音声を反応映像/音声生成部55および映像/音声重畳部56に供給する。
 特に、配信映像/音声は補助情報として反応映像/音声生成部55へと通知(供給)される。そのため、反応映像/音声生成部55では、必ずしも配信映像/音声復号部54から供給された配信映像/音声が用いられる必要はない。
 反応映像/音声生成部55は、少なくとも受信部53から供給された他者の周期情報に基づいて、複数の他のユーザの反応に対応する反応映像/音声、すなわち反応映像と反応音声を生成し、映像/音声重畳部56に供給(送信)する。
 反応映像は、例えば他者の反応情報(周期情報)に応じた動きをする、複数の各他者に対応するオブジェクトの映像である。また、反応音声は、例えば他者の反応情報(周期情報)に応じたタイミングで、複数の各他者の反応に対応する特定の音が再生される音声である。
 なお、反応映像/音声の生成時には、反応映像/音声生成部55は、他者の周期情報だけでなく、補助情報も用いるようにしてもよい。
 例えば、反応映像/音声生成部55は、センシング情報解析部51から供給された自端末の周期情報、配信映像/音声復号部54から供給された配信映像、および配信映像/音声復号部54から供給された配信音声の少なくとも何れか1つを補助情報として用いて反応映像/音声を生成してもよい。
 補助情報として用いられる自端末の周期情報や配信映像/音声は、自端末における配信映像/音声に関する環境を示す情報である。したがって、これらの補助情報は、配信映像/音声の再生時における自端末(観客端末11)の環境を示す環境情報であるということができる。
 また、以下では、観客端末11自身が有するセンシング情報解析部51により生成された、観客端末11に対応する観客の反応についての周期情報を、特に自端末周期情報とも称することとする。さらに、以下、観客端末11が受信した他者の周期情報を他者周期情報とも称することとする。
 映像/音声重畳部56は、配信映像/音声復号部54から供給された配信映像/音声に対して、反応映像/音声生成部55から供給された反応映像/音声を重畳することで、提示映像/音声を生成し、映像/音声出力部57に供給する。
 なお、上述のように反応映像や反応音声が、そのまま提示映像や提示音声とされてもよい。また、提示映像と提示音声の何れか一方のみが出力されるようにしてもよい。
 映像/音声出力部57は、映像/音声重畳部56から供給された提示映像/音声を、実際に映像/音声出力装置42に出力可能な形式に変換し、変換後の提示映像/音声を映像/音声出力装置42に供給(出力)する。すなわち、映像/音声出力部57は、映像/音声出力装置42に提示映像/音声を出力することで、ユーザに対して提示映像/音声を提示させる。
 例えば映像/音声出力装置42に出力可能な形式は、HDMI(High-Definition Multimedia Interface)(登録商標)の出力形式や公知の映像/音声データフォーマット(形式)などとされる。
 映像/音声出力装置42は、例えば映像表示機能と音声出力機能を有するディスプレイ等のデバイスからなり、映像/音声出力部57から供給された提示映像/音声を自端末の観客に対して提示する。すなわち、映像/音声出力装置42は、提示映像を表示させるとともに、提示音声を再生する。
〈演者端末の構成例〉
 演者端末12は、例えば図10に示すように構成される。
 この例では、演者端末12は、カメラやマイクロフォン等で得られた生映像/音声の供給を受けるとともに、適宜、生映像/音声を補助情報として用いて生成した反応映像/音声を、演者端末12に接続されている映像/音声出力装置81に出力する。
 演者端末12は、受信部91、反応映像/音声生成部92、および映像/音声出力部93を有している。
 これらの受信部91、反応映像/音声生成部92、および映像/音声出力部93は、観客端末11の受信部53、反応映像/音声生成部55、および映像/音声出力部57に対応している。すなわち、演者端末12は、観客端末11の機能のうち、他者周期情報を受信し、反応映像および反応音声を生成する機能のみを有する。したがって、演者端末12の構成は、観客端末11からいくつかの処理ブロックを除いた構成となっている。
 受信部91は、ネットワーク14上のサーバから他者の周期情報を多数取得(受信)し、反応映像/音声生成部92に供給する。
 反応映像/音声生成部92は、受信部91から供給された他者の周期情報と、補助情報として外部から供給された生映像/音声とに基づいて、オブジェクトの動きである反応映像と、反応音声を生成し、得られた反応映像/音声を映像/音声出力部93に供給する。
 上述のように、生映像/音声とは観客に配信する配信映像/音声の元になる、演目を撮影および収音したデータそのものである。また、補助情報である生映像/音声は、必ずしも反応映像/音声の生成に用いられなくてもよい。
 演者端末12においても観客端末11における場合と同様に、補助情報として用いられる生映像/音声は、自端末(演者端末12)の環境を示す環境情報であるということができる。
 映像/音声出力部93は、反応映像/音声生成部92から供給された反応映像/音声を、実際に映像/音声出力装置81に出力可能な形式に変換し、変換後の反応映像/音声を提示映像/音声として映像/音声出力装置81に供給(出力)する。
 例えば映像/音声出力装置81に出力可能な形式は、HDMI(登録商標)の出力形式や公知の映像/音声データフォーマット(形式)などとされる。
 ところで、上述の観客端末11について、その具体的な実施形態はユースケースや観客が保有する機器に応じて変わり得る。以下、観客端末11の具体的な例を述べる。
(観客端末の具体例1)
 観客端末11としての機能をスマートフォンやタブレットに搭載する。
 例えば、予めリモートライブシステムをサポートするライブ配信アプリケーションプログラムをスマートフォン等にインストールすることで、そのスマートフォン等を観客端末11として使用することができる。
 この場合、センシング用の機器、つまりセンシングデバイス41として、スマートフォン等の内蔵カメラやマイクロフォン等を用いることができる。また、別途、加速度センサやジャイロセンサ等を備えたセンシングデバイス41を有線または無線で観客端末11と接続してもよい。
 例えば加速度センサやジャイロセンサ等のセンサを備えペンライトの形状を模し、発光する把持デバイスをセンシングデバイス41としてもよい。そのような場合、センシングデバイス41としての把持デバイスをライブイベントの前に観客に購入してもらったり、チケットと共に把持デバイスを観客に配布したりすること等が考えられる。
 また、映像は観客端末11としてのスマートフォンやタブレットに搭載または接続されたディスプレイに提示し、音声は観客端末11に搭載または接続されたスピーカ、イヤホン、ヘッドホンにより提示される。
(観客端末の具体例2)
 観客端末11としての機能をPC(Personal Computer)/ゲーム機に搭載する。
 予めリモートライブシステムをサポートするライブ配信アプリケーションプログラムをPC等にインストールすることで、そのPC等を観客端末11として使用することができる。
 この場合、センシング用の機器、つまりセンシングデバイス41として、上記の加速度センサやジャイロセンサ等を備えるデバイス、コントローラ、ヘッドマウントディスプレイ等を用いることができる。また、観客端末11に接続されたディスプレイや、ヘッドマウントディスプレイに映像を提示し、音声は観客端末11に接続されたスピーカ、イヤホン、ヘッドホン、ヘッドマウントディスプレイ等により提示される。
 演者端末12としての機能も、上記の観客端末11の例と同様の機器によって実現できる。但し、演者端末12は、生音声の映像/音声を低遅延で入力できるようなインターフェースを備えることが望ましい。
 演者端末12側では、映像は演者から確認可能な位置にあるディスプレイによって提示し、音声は会場内に設置されたスピーカや、演者が身に着けるイヤホン(IEM(In-Ear Monitor))等で、他の音声とミキシングされて提示される。
〈本技術の概要〉
 本技術では、リモートライブシステムにおける反応映像/音声生成部55および反応映像/音声生成部92により行われる処理が、自端末の環境に応じて変化する。
 具体的には、受信した他者の周期情報に加え、適宜、自端末の環境を示す補助情報が参照されて、反応映像および反応音声が生成される。補助情報は、例えば視聴中の配信映像の時刻を示すタイムスタンプや、自端末でセンシングして得られた周期情報、音声から取得したテンポ情報などとされる。
 ここで、図11に本技術を適用したリモートライブシステムと一般的なリモートライブシステムとの違いを示す。
 図中、上側には、一般的なリモートライブシステムにおいて演者、観客A、および観客Bに提示される反応映像の例が示されている。ここでは、反応映像には、他者の反応に応じて動くオブジェクトとしてペンライトが表示されている。
 図中、上側に示すように一般的なリモートライブシステムでは、他者の反応のずれに対する補正等のケアは何ら行われないため、各観客の反応がそのまま提示されてしまう。したがって、他者(観客)の反応が揃ってほしい条件下でも、それらの観客の反応がばらばらになった映像が提示されてしまう。
 これに対して、図中、下側には本技術を適用したリモートライブシステムにおいて演者、観客A、および観客Bに提示される反応映像の例が示されている。図中、上側における場合と同様に、反応映像には、他者の反応に応じて動くオブジェクトとしてペンライトが表示されている。
 本技術では、演者や観客の環境に合わせて、自端末で他者の反応のずれを吸収した反応映像/音声が提示される。
 したがって、図中、下側に示すように演者端末12および各観客端末11により提示される反応、すなわち反応映像上におけるオブジェクトの動きはそれぞれ全く異なるにもかかわらず、提示される演者や観客自身にとっては違和感がなくなる。
 具体的には、例えば観客Aに提示される反応映像上のオブジェクトの動きと、観客Bに提示される反応映像上のオブジェクトの動きとを比較すると、それらの動きは揃っていない。しかし、例えば観客Aに提示される反応映像上においては、複数の各オブジェクトの動きが揃っており、違和感の少ない反応映像となっている。
 なお、他者の反応のずれを吸収する方法として、上述の特許文献3における第125段落には、サーバで他者の反応情報を一時的に記憶し、タイミングを合わせてから全端末に反応情報を再送信する方法が開示されている。
 しかし、この方法では遅延量の大きい端末にタイミングを合わせる必要があるから、反応情報の遅延が増大してしまう。そのため、現実的には多人数のリモートライブに適応することは困難である。本技術は特許文献3に記載の機構が不要なため、遅延量を増大させることなく、多人数でのリモートライブに適応することができる。
 さらに、本技術は、後述する第2の実施の形態のように、反応情報から未来の反応映像/音声を予測することも可能であるから、反応情報の遅延そのものを検知しにくくなるという、さらなる利点も有している。
 また、上述の特許文献4のように、反応映像をサーバで生成し各端末に配信する方法も考えられる。しかし、本技術は反応映像(反応音声)を自端末上でローカルに生成する点で特許文献4とは異なる。
 この差異によって、上述のように自端末の環境に応じて動作、すなわち反応映像/音声生成部55や反応映像/音声生成部92での処理を変化させることができ、より違和感の少ない反応映像/音声を得ることができる。
 以下、各実施の形態において「自端末に最適化された、他者の反応のずれを吸収した反応映像/音声」の具体的な生成方法について説明する。そのために、まず観客端末11におけるセンシング情報解析部51での処理の詳細について説明し、次に観客端末11の反応映像/音声生成部55および演者端末12の反応映像/音声生成部92における処理の詳細について説明する。
 第1の実施の形態では、取得した複数の他者周期情報のなかから、1個以上の他者周期情報を選択し、選択した他者周期情報を用いて反応映像や反応音声を生成する例について説明する。
 図12に第1の実施の形態の概要を示す。
 図12では、反応映像/音声生成部55および反応映像/音声生成部92の簡易的な構成が示されている。
 反応映像/音声生成部では、受信されたN個の他者周期情報から1個以上の周期情報が選択される。そして、選択された周期情報に基づいて、複数個、例えば入力された周期情報の個数と同じN個のオブジェクトが動く反応映像と、その反応映像に対応する反応音声が生成される。
 この例では、1つの周期情報iが選択されているため、この1つの周期情報iから生成した複数のオブジェクトの動きは不自然にばらばらになることがなく、反応映像の違和感が軽減される。換言すれば、複数の他者の観客端末11ごとに異なる遅延量によってばらばらになっている他者の反応が、選択された周期情報iに対応する同一の反応に置き換えられることにより遅延量のずれが補正され、違和感のない反応映像が提示される。
 周期情報の選択基準については後述するが、自端末の環境を示す補助情報が参照されて周期情報の選択が行われる。
 なお、特許文献4では、1つのモーションデータから複数のオブジェクトが動く映像を生成してもよい旨が開示されている。しかし本技術は、受信した複数の反応情報(周期情報)から、自端末の環境を考慮して予め1個以上の反応情報を選択する点で特許文献4と異なる。その結果、自端末に対応する演者または観客にとって違和感の生じにくい反応映像を生成できるという異質の効果が生まれる。
 以下、図12を参照して説明した概念を、本技術を適用したリモートライブシステムで実施するための具体的な方法について詳細に説明する。
 本技術は、観客の反応に周期性があれば、反応の種類に依らず適応可能であるが、説明を分かりやすくするため、以下では想定する反応映像/音声と、対応して決まる周期情報の内容を具体的に例示する。なぜなら、提示したい反応映像/音声の内容によって、周期情報の具体的な中身が変わるからである。
 例えば、反応映像がペンライトの動きや、観客が手を振る動作を模したものであり、かつペンライトや観客の手が左右にしか振れないような動きに限定される場合には、周期情報は、ある周期で左右に振れることを示す1次元の情報のみで十分である。また、例えば反応映像上のオブジェクトの動きがヘッドバンギングなど体全体を使用する動きであれば、上下または8の字といった動作が復元できるようなメタ情報が必要である。
 なお、反応映像を生成するためのオブジェクトの3Dモデルや、反応音声の生成の元になる音源(例えば、1回分の拍手など)、すなわち音声データは、リモートライブシステムでのリモートライブに参加する際に配信者からダウンロードする等の方法により観客端末11や演者端末12に記録されているものとする。
 第1の実施の形態では、観客(他者)が持っているペンライトが他者の反応に対応するオブジェクトであり、そのペンライトが他者の反応(動き)に応じて動く反応映像が生成される例について説明する。
 すなわち、この例では、例えば他者(他の観客)は実際にペンライトを把持しており、そのペンライトが他者に対応するオブジェクトとされ、周期情報からペンライトが左右に動くような反応映像が生成されることを想定する。この場合、他者が実際に把持するペンライトには、加速度センサやジャイロセンサ等のセンサが設けられている。
 ここでは、説明を簡単にするため、観客の動き(動作)として、観客がペンライトを前後や上下に振るような動作については無視することとする。また、提示映像上において単体でペンライトの映像が重畳されると、ペンライトが宙に浮いているように見えて不自然なため、実際には観客に対応するアバタの腕とペンライトが同期して動く映像を提示することが考えられるが、説明の都合上ペンライトの動きに限定して述べることとする。
 このように、配信映像/音声を視聴する観客がペンライトを持って、そのペンライトを左右に振るという反応をし、その反応に応じて、オブジェクトとしてのペンライトが動く反応映像を生成する場合、ペンライトの動きを表現する周期情報として図13に示す情報を用いることができる。
 図13では、矢印Q21に示す部分には時系列に並ぶ周期情報の例が示されており、矢印Q22に示す部分にはペンライトの動きが示されている。
 特に、矢印Q22に示す部分において、横軸は時刻を示しており、縦方向の矢印の高さはペンライトの傾きを示す角度の大きさを表している。
 ここでは、ペンライトが水平方向となっている状態、すなわちペンライトが水平面と平行になっている状態を、ペンライトの角度が0°となっている状態であるとする。したがって、例えばペンライトが図中、右斜め上を向く状態では、ペンライトの角度は45°となり、ペンライトが図中、左斜め上を向く状態では、ペンライトの角度は135°となる。
 この例では、観客は配信映像/音声を視聴しながら、ペンライトを左右に動かす反応をする。そして、以下に示す2つの情報が観客の反応を示す周期情報として送信される。
 ・動く向きが変わった時のペンライト角度(角速度の符号が変わる瞬間の角度)
 ・前回向きが変わってからの経過時間(直前の半周期の時間)
 矢印Q21に示す部分では、周期情報は「角度」および「半周期」という2つの情報からなり、図中、下側に示される周期情報ほど、より新しい周期情報となっている。
 周期情報に含まれている角度(以下、角度情報とも称する)は、ペンライトの動く向き(方向)が変化した時刻における、ペンライトの水平面に対する角度となっている。
 また、周期情報に含まれている半周期(以下、半周期情報とも称する)は、前回(直前に)、ペンライトの動く向き(方向)が変化してから、今回、ペンライトの動く向きが変化するまでの時間を示している。
 この例では、各観客端末11において、ペンライトの動く向きが変化したタイミングで角度情報と半周期情報とからなる周期情報が生成され、ネットワーク14上のサーバへと送信される。
 したがって、矢印Q21に示す各タイミングの周期情報が受信された場合には、それらの周期情報から、観客の反応は矢印Q22に示した反応であることが特定できる。
 具体的には、所定の時刻ではペンライトの角度は135°となっており、その2秒後にペンライトの角度は45°となり、さらにその2秒後にペンライトの角度は135°となるといったように、他者の反応が、ペンライトが45°から135°の間の角度で左右に動く反応であったことが分かる。すなわち、ペンライトは、例えば右方向から左方向など、ペンライトの動く向きを変化させながら左右に動く周期的な動き(周期運動)をしていることが分かる。
 この場合、ペンライトの動く向きが変化してから、次にペンライトの動く向きが変化するまでの経過時間が、周期運動であるペンライト動きの半周期の時間となる。
 このように限られた情報を動きの半周期という、非常に少ない頻度で他の観客端末11に通知するだけで、各観客端末11では反応映像を生成することができる。
 したがって、周期情報を反応情報として用いることで、ゲーム等で用いられる既存技術や特許文献1、特許文献3、特許文献4のように動き情報や位置情報を単に送信する場合とは異なり、多人数へのスケールが可能である。
〈周期情報生成処理の説明〉
 ここで、周期情報を生成するときに行われる処理について説明する。すなわち、以下、図14のフローチャートを参照して、観客端末11による周期情報生成処理について説明する。この周期情報生成処理は、センシング情報の取得タイミングに同期して一定の間隔、例えばセンシング情報の数10サンプル分や映像の数フレーム分の時間ごとに実行される。
 ステップS11においてセンシング情報解析部51は、センシングデバイス41からセンシング情報を取得し、取得したセンシング情報から観客(ペンライト)の角加速度、角速度、角度等のセンシング結果に基づく時系列データを得る(取得する)。
 例えば図15の左側に示すように、観客がセンシングデバイス41を内蔵するペンライトを左右に振っている状態で、図中、中央に示すように、センシング情報解析部51がセンシングデバイス41からセンシング情報を取得したとする。
 この例では、センシングデバイス41は加速度センサやジャイロセンサからなり、センシング情報解析部51は、センシング情報として角加速度の時系列データを取得する。
 センシング情報解析部51は、このようにして取得した角加速度の時系列データを積分するなど、所定の方法により時系列データを加工することで、図中、右側に示すようにペンライトの動きを示す角速度や角度に関する時系列データを得る。この例では、角加速度の時系列データを積分することで、角速度の時系列データが取得される。
 また、例えば図16に示すように過去に取得されたセンシング情報としての映像フレームFL11と、今回、新たにセンシング情報として取得された映像フレームFL12とを比較することで、観客の手(腕)の動きを検出してもよい。
 この例では、観客を被写体として撮影された映像がセンシング情報とされており、映像フレームFL11と映像フレームFL12には、観客が手を振る様子が被写体として写っている。この場合、センシング情報解析部51は、例えばセンシング情報として供給された映像フレームに対する解析処理を行うことで、観客の手や腕を検出するとともに、その手や腕の向き、すなわち手や腕の水平面に対する角度を得ることができる。
 したがって、映像フレームFL11と映像フレームFL12など、時間的に前後する映像フレーム、より詳細には映像フレームについて得られた手や腕の角度を比較することで、観客の手(腕)の動き、すなわち手の角速度等に関する時系列データを得ることができる。
 なお、映像フレームからの観客の手や腕の検出には、例えばDNN(Deep Neural Network)等の機械学習により得られた検出器等を用いるようにしてもよいし、映像フレームに対する画像認識などにより検出を行うようにしてもよい。
 図14のフローチャートの説明に戻り、ステップS12においてセンシング情報解析部51は、ステップS11で得られた時系列データに基づいて、観客(ペンライト)の動きの向きの切り替わりを検出する。
 具体的には、例えばセンシング情報解析部51は、以下の2つの基準のうちの少なくとも何れか一方に基づいて、観客の反応を示す動き、すなわちペンライトの動きの向きの切り替わりを検出する。
 基準1:加速度が極大、極小となる点がある
 基準2:角速度の符号が変わる
 例えば図17の下側に示すように、センシング情報から角速度の時系列データが得られたとする。ここでは折れ線L11が角速度の時系列データを示しており、特に期間T11の部分の時系列データが直前のステップS11の処理で得られたとする。また、図中、下側において横軸よりも上側の領域は角速度(動きが左方向)が正となる領域であり、横軸よりも下側の領域は角速度が負となる領域である。
 この場合、角速度の符号が変化するタイミング(時刻)を、観客の反応を示す動きの向きが変化したタイミングとみなすことができる。
 例えば角速度の時系列データにおける期間T11では、角速度の符号が正から負へと変化しているので、センシング情報解析部51は、時系列データの符号が変化したタイミング(時刻)を、観客の反応を示す動きの向きが切り替わったタイミングとして検出する。
 また、例えば角速度の絶対値が一定以下となる範囲T12を、観客の動きが停止していると判断される角速度の範囲とし、角速度が範囲T12内となる場合には、観客の反応を示す動きが停止していると判定されるようにしてもよい。この場合、角速度が範囲T12内の値から範囲T12外の値へと変化したタイミング(時刻)が、観客の反応を示す動きの向きが切り替わったタイミングとして検出される。
 さらに、例えば図中、上側に示すように角加速度の時系列データにおける極大または極小の有無によって、観客の反応を示す動きの向きの切り替わりが検出されてもよい。図中、上側では折れ線L12は、角加速度の時系列データを示しており、特に期間T11の部分の時系列データが直前のステップS11の処理で得られたとする。
 この場合、センシング情報解析部51は、角加速度が極大または極小となるタイミングを、観客の反応を示す動きの向きが切り替わったタイミングとして検出する。
 例えば角加速度の時系列データにおける期間T11には、極小となるタイミングが含まれているから、センシング情報解析部51は、そのタイミング(時刻)を、観客の反応を示す動きの向きが切り替わったタイミングとする。
 この場合、例えば角加速度の時系列データにおける、期間T11の直前の極大となったタイミングから、期間T11内の極小となるタイミングまでの期間T13の長さが、観客の反応を示す動きの半周期の時間となる。
 なお、実際のセンシング情報にはノイズが含まれるため、センシング情報解析部51は、ステップS11で得られた時系列データに対して移動平均等の平滑化を行ってから、ステップS12の処理を行うようにしてもよい。
 また、例えば図18の上側に示すように、実際のペンライトの動作には、向きを変えるときに一定時間ペンライトの角度を変えずに小刻みに動かす、いわば「溜め」のような動きもある。
 図18の上側には、観客が手にペンライトPL11を持って、溜めを行いながらペンライトPL11を左右に振る(動かす)動きの様子が示されている。
 このように観客がペンライトPL11を左右に振るときに左右の端で溜めの動作を行う場合、例えばセンシング情報解析部51では、図中、下側に示す角速度の時系列データが得られる。ここでは折れ線L21が角速度の時系列データを示している。
 この場合、例えば角速度の絶対値が一定以下となる範囲T21では、ペンライトPL11の動きが停止していると判断することができる。
 そこでセンシング情報解析部51は、ペンライトPL11が最後に停止していたとみなされてから(判定されてから)の経過時間pstopを記録し、経過時間pstopが予め定められた期間p以上となった場合に、ペンライトPL11の動きが溜めの状態となっているとする。
 例えば、この例では折れ線L21における期間T22の部分が図中、中央に示した状態、つまりペンライトPL11が右端で溜めとなっている状態に対応している。図中、中央に示す部分では、ペンライトPL11が右端で溜めとなっているときには、ペンライトPL11の向きが殆ど変化しないことが分かる。
 例えば、前回、ステップS12の処理を行ったときには、ペンライトPL11が溜めの状態であったが、今回、ステップS12の処理を行ったところ、ペンライトPL11の動きの向きの切り替わりが検出されたとする。
 そのような場合、センシング情報解析部51は、動きの向きの切り替わりが検出された時点における経過時間pstopを、ペンライトPL11の溜めの時間を示す付加情報として、送信部52に供給するようにしてもよい。
 但し、期間pよりも十分に大きい、予め定められた期間をpとして、経過時間pstop>pとなった場合、センシング情報解析部51は、ペンライトPL11の動きは溜め動作ではなく、ペンライトPL11の動きが停止したものとする。そしてセンシング情報解析部51は、ペンライトPL11の動きが停止している、すなわち観客の反応が失われたことを示す情報を送信部52に供給するようにしてもよい。
 図14のフローチャートの説明に戻り、ステップS13においてセンシング情報解析部51は、ステップS12の処理により、観客(ペンライト)の動きの向きの切り替わりが検出されたか否かを判定する。
 ステップS13において向きの切り替わりが検出されたと判定された場合、ステップS14において、センシング情報解析部51は周期情報を生成し、送信部52および反応映像/音声生成部55に供給する。なお、例えばステップS12において溜めの時間を示す付加情報が生成された場合にも、ステップS13の処理が行われる。
 例えばセンシング情報解析部51は、前回、観客(ペンライト)の動きの向きが変化した時刻tbeforeと、今回、観客の動きの向きが変化した時刻tとの差(t-tbefore)を観客の動きの半周期に相当する時間(半周期情報)として求める。また、センシング情報解析部51は、時刻tにおける観客の動きを示す角度、すなわち例えばペンライトの水平面に対する角度を角度情報として求める。
 センシング情報解析部51は、求めた半周期情報と角度情報を含む情報を周期情報として送信部52および反応映像/音声生成部55に供給する。このとき、周期情報には、上述の溜めの時間を示す付加情報や、観客の反応が失われたことを示す付加情報が含まれるようにしてもよい。
 なお、観客端末11に対応する1人の観客がペンライト型の把持デバイス(センシングデバイス41)を右手と左手のそれぞれに持ち、それらの把持デバイスが無線等により接続される場合など、複数のセンシング情報が得られることもある。
 そのような場合には、センシング情報解析部51は、上述のステップS11乃至ステップS14の処理を2回行って、センシング情報(センシングデバイス41)ごとに周期情報を生成し、送信するようにしてもよい。
 その他、ステップS11乃至ステップS14の処理を2回実行することに伴う演算負荷の増加や情報量増加を避ける観点から、通信状態や観客端末11の演算リソースに応じて、何れか一方のペンライトの情報(センシング情報)のみについて処理を行い、周期情報を生成するようにしてもよい。
 ステップS15において送信部52は、センシング情報解析部51から供給された周期情報を、ネットワーク14上のサーバに送信し、周期情報生成処理は終了する。
 また、ステップS13において向きの切り替わりが検出されなかったと判定された場合、周期情報は送信されないので、ステップS14およびステップS15の処理は行われず、周期情報生成処理は終了する。
 以上のようにして観客端末11は、センシング情報に基づいて周期情報を生成し、ネットワーク14上のサーバへと送信する。観客端末11では、観客の動きの向きの切り替わりが検出された場合にのみ周期情報が生成されるので、観客端末11が多数ある場合でも、少ない通信量および処理負荷でリモートライブを実現することができる。
〈コンテンツ再生処理の説明〉
 また、観客端末11は、上述した周期情報生成処理を行いながら、他者周期情報や配信映像/音声を受信して提示映像/音声をコンテンツとして提示するコンテンツ再生処理も同時に行う。以下、図19のフローチャートを参照して、観客端末11により行われるコンテンツ再生処理について説明する。例えばコンテンツ再生処理は、配信映像や配信音声のフレームごとに行われる。
 ステップS41において受信部53は、ネットワーク14上のサーバから送信されてきた配信映像/音声、より詳細には符号化配信映像/音声を受信して映像/音声復号部54へと供給する。
 ステップS42において受信部53は、ネットワーク14上のサーバから送信されてきた他の観客端末11の周期情報、すなわち他者周期情報を受信して反応映像/音声生成部55に供給する。
 なお、配信映像/音声はフレーム単位などで、一定の時間間隔で送信されてくるのに対して、他者周期情報は不定の時間間隔で送信されてくる。つまり他者周期情報は、他の観客端末11において、他者(他の観客)の動きの向きの切り替わりが検出されたタイミングで送信される。そのため、より詳細には、ステップS42の処理は1フレーム分のコンテンツ再生処理の実行時に必ず行われるわけではなく、またステップS42の処理は他者周期情報が送信されてきたタイミングで行われる。
 ステップS43において配信映像/音声復号部54は、受信部53から供給された配信映像/音声を復号し、反応映像/音声生成部55および映像/音声重畳部56に供給する。
 ステップS44において反応映像/音声生成部55は、受信部53から供給された他者周期情報に基づいて反応映像/音声を生成し、映像/音声重畳部56に供給する。
 このとき、反応映像/音声生成部55は、センシング情報解析部51から供給された自端末周期情報や、配信映像/音声復号部54から供給された配信映像/音声を、適宜、補助情報として用いて反応映像/音声を生成する。
 例えばステップS44では、反応映像と反応音声の何れか一方のみが生成されるようにしてもよいし、反応映像と反応音声の両方が生成されるようにしてもよいが、ここでは反応映像と反応音声の両方が生成されるものとして説明を続ける。
 また、ステップS44では、必要に応じて、オブジェクトと周期情報との対応を示す対応テーブルを生成する処理も行われる。なお、反応映像や反応音声の生成の詳細や対応テーブルについては後述する。
 ステップS45において映像/音声重畳部56は、配信映像/音声復号部54から供給された配信映像/音声と、反応映像/音声生成部55から供給された反応映像/音声とに基づいて提示映像/音声を生成し、映像/音声出力部57に供給する。
 ステップS46において映像/音声出力部57は、映像/音声重畳部56から供給された提示映像/音声に対して、適宜、フォーマット(形式)を変換する処理を施し、その結果得られた提示映像/音声を映像/音声出力装置42に出力する。
 これにより映像/音声出力装置42では、提示映像が表示されるとともに、提示音声が出力される。すなわち、リモートライブシステムで提供されるコンテンツが再生される。提示映像/音声が観客に対して提示されると、コンテンツ再生処理は終了する。
 以上のようにして観客端末11は、適宜、自端末周期情報や配信映像/音声などの補助情報、換言すれば自端末の環境を示す情報を用いて反応映像/音声を生成し、その反応映像/音声から得られる提示映像/音声を観客に対して提示する。
 このようにすることで、より違和感の少ない提示映像/音声を提示することができ、その結果、一体感のあるリモートライブを実現することができる。
〈反応再生処理の説明〉
 また、配信映像/音声の配信時には、演者端末12において複数の観客端末11から送信された周期情報を受信して反応映像/音声を提示する反応再生処理も行われる。以下、図20のフローチャートを参照して、演者端末12により行われる反応再生処理について説明する。
 ステップS71において受信部91は、ネットワーク14上のサーバから送信されてきた周期情報を受信し、反応映像/音声生成部92に供給する。
 ステップS72において反応映像/音声生成部92は、受信部91から供給された周期情報に基づいて反応映像/音声を生成し、映像/音声出力部93に供給する。
 このとき、反応映像/音声生成部92は、外部から供給された生映像/音声を、適宜、補助情報として用いて反応映像/音声を生成する。
 ステップS73において映像/音声出力部93は、反応映像/音声生成部92から供給された反応映像/音声に対して、適宜、フォーマットを変換する処理を施し、その結果得られた反応映像/音声を提示映像/音声として映像/音声出力装置81に出力する。
 これにより映像/音声出力装置81では、反応映像が表示されるとともに反応音声が出力される。したがって、演者は多数の観客の反応を見ながら演奏を行うことができる。このようにして反応映像/音声が提示されると、反応再生処理は終了する。
 以上のようにして演者端末12は、適宜、自端末の環境を示す情報である生映像/音声を補助情報として用いて反応映像/音声を生成し、演者に対して提示する。
 このようにすることで、より違和感の少ない反応映像/音声を提示することができ、その結果、一体感のあるリモートライブを実現することができる。
〈反応映像/音声生成部の構成例〉
 続いて、反応映像/音声生成部55と反応映像/音声生成部92の構成と動作の具体的な例について説明する。
 反応映像/音声生成部55は、より詳細には例えば図21に示すように構成される。
 反応映像/音声生成部55は周期情報選択部121、反応フレーム生成部122、および反応音声生成部123を有している。
 周期情報選択部121は、受信部53から供給された他者周期情報と、センシング情報解析部51や配信映像/音声復号部54から供給された補助情報に基づいて、複数の他者周期情報のなかから1個以上の所定個数の他者周期情報を選択し、反応フレーム生成部122および反応音声生成部123に供給する。
 例えば周期情報選択部121は、センシング情報解析部51から供給された自端末周期情報と、配信映像/音声復号部54から供給された配信映像/音声のうちの少なくとも何れか1つを補助情報として用いて周期情報の選択を行う。
 ここで、周期情報を識別(特定)するIDを周期情報IDと呼ぶこととし、周期情報IDがnである周期情報を周期情報nとも記すこととする。この周期情報IDは、他者の観客端末11を特定するIDであるともいうことができる。
 図21の例では、周期情報IDが1乃至NであるN個の他者周期情報が受信されている。そして、それらのN個の他者周期情報のなかから、周期情報iおよび周期情報j(但し、1≦i,j≦N)という2つの他者周期情報が選択されて反応フレーム生成部122および反応音声生成部123へと供給されている。
 なお、以下、反応映像/音声生成部55や反応映像/音声生成部92において、複数の他者周期情報のなかから選択された周期情報を、特に選択周期情報とも称することとする。
 反応フレーム生成部122は、周期情報選択部121から供給された周期情報iおよび周期情報j、すなわち選択周期情報に基づいて、反応映像の1フレーム分の画像を生成し、映像/音声重畳部56に供給する。
 反応音声生成部123は、周期情報選択部121から供給された選択周期情報(周期情報iおよび周期情報j)に基づいて反応音声を生成し、映像/音声重畳部56に供給する。
 また、反応映像/音声生成部92は、例えば図22に示すように構成される。
 この例では反応映像/音声生成部92は、周期情報選択部151、反応フレーム生成部152、および反応音声生成部153を有している。
 これらの周期情報選択部151乃至反応音声生成部153は、反応映像/音声生成部55の周期情報選択部121乃至反応音声生成部123と同様であるので、その説明は省略する。但し、周期情報選択部151には、補助情報として外部から生映像/音声が供給される。
〈周期情報選択部の動作について〉
 次に、反応映像/音声生成部55の周期情報選択部121、および反応映像/音声生成部92の周期情報選択部151の動作について説明する。
 周期情報選択部121および周期情報選択部151において行われる処理は、基本的には同じであるので、以下では主に周期情報選択部121において処理が行われるものとして説明を続ける。
 周期情報選択部121は、以下で具体的に述べる選択基準に基づき、取得した複数の他者周期情報のなかから自端末にとって最も適切な周期情報を選択する。
 なお、以下に述べる選択基準は、状況に応じて動的に切り替えることが望ましい。すなわち、選択される周期情報が動的に変化するようにしてもよい。また、選択される周期情報の個数も動的に変化させることができる。これらの選択される周期情報や、選択周期情報の個数を動的に変化させることは、周期情報選択部121だけでなく、周期情報選択部151においても行われるようにすることができる。
 例えば、ある選択基準を採用した際に、有効な情報が得られなかった場合には、周期情報選択部121は別の選択基準を優先して周期情報の選択を行う。また、以下に示す選択基準について、その選択基準の一部または全部を組み合わせて用いることが望ましい。
(音声のテンポ情報やビート(拍節)情報を用いる)
 まず、周期情報を選択する際の選択基準として音声のテンポ情報やビート情報を用いる例について説明する。
 例えば視聴中の配信音声(または生音声)を入力として、公知のビートトラッキング・リズム認識技術やDNN等を用いて取得できる、配信音声(または生音声)のテンポ、すなわち一泊を示すテンポ情報を周期情報の選択に用いるようにすることができる。
 この場合、周期情報の半周期情報により示される半周期の値が、補助情報から得られたテンポ情報により示される配信音声(または生音声)の一拍の長さと同じ、または配信音声(または生音声)の一拍の長さの整数倍に最も近い周期情報が選択周期情報として選択される。そうすることで、配信音声により再生される楽曲のテンポに比較的良く同期する周期情報を選択することができる。
 このとき、例えばテンポ情報により示される配信音声の一拍の長さがTである場合、図23に示すように、半周期の長さがT/2に近いグループ、半周期の長さがTに近いグループ、半周期の長さが2Tに近いグループなど、複数のグループのうちの何れかに各周期情報が属すようにグループ分けが行われる。
 図23の例では、拍の長さの平均値でグループが形成されており、例えば半周期の長さが5/12T以上3/4T未満である周期情報は、「半周期の長さがT/2に近いグループ」に分類される。
 そして、例えば属している周期情報の数が最も多いグループのなかから、1または複数の周期情報が選択周期情報として選択される。
 より具体的な例として、例えば周期情報選択部121が補助情報としての配信音声に基づいて求めた、その配信音声のテンポ情報の値が60BPM[秒]であったとする。
 この場合、周期情報選択部121は、受信部53から取得した各周期情報を、半周期が1(=60/60)秒に近い周期情報、2秒に近い周期情報、…というようにグループ分けする。
 そして、周期情報選択部121は、複数のグループのうち、最も多くの周期情報が属すグループを選択し、その選択したグループに属す周期情報のなかから、半周期情報に基づき所定の個数だけ選択周期情報とする周期情報を選択していく。
 例えば最も周期情報が多いグループが、半周期が2秒に近い周期情報のグループであったとすると、周期情報選択部121は、そのグループに属す周期情報のなかから、半周期情報により示される半周期が2秒に近いものから順番に所定数の周期情報を選択周期情報として選択する。
 さらに具体的な例を図24に示す。
 図24の上側に示すように、周期情報選択部121が配信音声のテンポ情報を算出した結果、テンポ「60BPM」を示すテンポ情報が得られたとする。つまり、配信音声の一拍の長さが1秒であるとする。
 また、最新の周期情報として、図中、左側に示すように、他者周期情報である周期情報1乃至周期情報7が取得されたとし、これらの7個の周期情報のなかから2個の周期情報を選択することとする。ここでは、各周期情報1乃至周期情報7について、周期情報ID、角度情報(角度)、および半周期情報(直前の半周期)が示されている。
 いま、他者周期情報を半周期の長さに基づき、一拍の長さの整数倍ごとにグループ分けをすると、図中、中央に示すように他者周期情報は、半周期が1秒に近いグループと、半周期が2秒に近いグループに分けられる。
 この例では、周期情報1、周期情報3、および周期情報6の合計3個の周期情報が「1秒に近いグループ」に属し、残りの周期情報2、周期情報4、周期情報5、および周期情報7の合計4個の周期情報が「2秒に近いグループ」に属している。
 次に、周期情報選択部121は、グループ分けにより得られた2つのグループのうち、より多くの周期情報が属すグループを選択する。したがって、ここでは4個の周期情報が属す「2秒に近いグループ」が選択される。
 そして周期情報選択部121は、選択した「2秒に近いグループ」に属す周期情報のなかから、2つの周期情報を選択周期情報として選択する。
 具体的には、例えば配信音声の一拍の長さの整数倍の値、ここでは一拍の長さの2倍である「2秒」に近い半周期を有する周期情報が選択される。
 この場合、半周期と一拍の長さの2倍である「2秒」との差(差分絶対値)が最も小さくなるのは、半周期が「1.9」である周期情報5であり、その差は「0.1」となる。
 また、周期情報5の次に半周期と「2秒」との差が小さくなるのは、半周期が「2.2」である周期情報2であり、その差は「0.2」となる。
 したがって、周期情報5および周期情報2が選択周期情報として選択される。これらの選択周期情報は、配信音声のテンポと最も同期がとれた他者(観客)の反応の周期情報であるから、適切な選択周期情報であるということができる。
 また、例えばビートトラッキング・リズム認識技術やDNN等から得られる、拍(ビート)の発生時刻や、楽器音の発音時刻といった時系列情報を用いて、拍の発生時刻や楽器音の発音時刻に最も近いタイミングで更新(受信)された周期情報を選択してもよい。
 周期情報が更新されるタイミングは、ちょうどペンライトを振る向きが変わるタイミングであるから、この方法により、配信音声の拍に同期してペンライトを振る反応を選択できることになる。
 具体的には、例えば周期情報選択部121が補助情報としての配信音声に基づいて、その配信音声のビート情報として、図25の上側に示すような拍(ビート)の発生時刻を示す時系列情報を得た(生成した)とする。
 図25の上側では、横軸は時間(時刻)を示しており、図中、上側に凸の矢印は配信音声におけるビート発生時刻を表している。
 また、周期情報選択部121は、図中、中央に示す周期情報1と、図中、下側に示す周期情報2とを取得し、これらの周期情報1と周期情報2のうちの何れかを選択周期情報として選択するものとする。
 なお、図中、中央および図中、下側において、横軸は時間(時刻)を示しており、図中、上側に凸の矢印は周期情報が更新されたタイミング、つまり左右に動くペンライトの動く向きが切り替わったタイミングを示している。
 ここで、周期情報1が更新されるタイミングと、ビート情報により示されるビート発生時刻、つまりビートのタイミングとを比較すると、それらのタイミングはずれているため、周期情報1は、配信音声に対する周期情報として適切であるとはいえない。
 これに対して、周期情報2が更新されるタイミングは、ビート情報により示されるビートのタイミングに近いので、周期情報2に対応する観客の反応、つまり観客によるペンライトの動きは、配信音声のビートにあった動きとなっている。したがって、周期情報2は、配信音声に対して適切な周期情報であるといえる。
 そこで、周期情報選択部121は、周期情報1と周期情報2のうち、よりビート情報により示されるビートの発生タイミングに近いタイミングで更新されている周期情報2を優先的に選択周期情報として選択する。
(自端末で取得した周期情報を用いる)
 また、例えば観客端末11において、周期情報選択部121がセンシング情報解析部51から補助情報として取得した自端末周期情報を用いて、複数の他者周期情報のなかから選択周期情報を選択するようにしてもよい。
 ここで、自端末周期情報の周期情報IDを「0」とし、自端末周期情報を、他者周期情報である周期情報1乃至周期情報Nと区別して周期情報0とも記すこととする。
 例えば周期情報選択部121は、複数の他者周期情報のうち、半周期が周期情報0の半周期情報により示される半周期と最も近い他者周期情報を選択する。
 具体的な例として、例えば図26に示すように、最新の周期情報として、自端末周期情報である周期情報0と、他者周期情報である周期情報1乃至周期情報4が取得されたとする。ここでは、各周期情報0乃至周期情報4について、角度情報(角度)、半周期情報(直前の半周期)、および周期情報0との半周期の差が示されている。
 いま、周期情報1乃至周期情報4のなかから、2つの周期情報を選択周期情報として選択することとする。特に4つの周期情報のうち、半周期の長さが周期情報0と近いものが2つ選択されるとする。
 この場合、周期情報0の半周期「1.1」と最も近い半周期をもつ他者周期情報は、半周期の差が「+0.1」である周期情報1であるので、1つ目の選択周期情報として周期情報1が選択される。また、周期情報0の半周期との差が次に小さいのは、半周期の差が「-0.2」である周期情報3であるので、この周期情報3が2つ目の選択周期情報として選択される。
 また、例えば周期情報0が更新された、つまり自端末に対応する観客のペンライト(オブジェクト)の動く向きが切り替わったタイミングと最も近いタイミングで更新された(受信された)他者周期情報を選択周期情報として選択するようにしてもよい。
 このようにすることで、周期だけではなくペンライトを振っている向きについても同期のとれている他者周期情報を選択できる可能性が高まる。その結果、観客は、提示映像を見たときに他者と息のあった動きを感じることができる。
 具体的には、例えば図27に示すようなタイミングで周期情報が得られたとする。
 なお、図27において、横軸は時間(時刻)を示しており、図中、上側に凸の矢印は周期情報が更新されたタイミング、つまり左右に動くペンライトの動く向きが切り替わったタイミングを示している。特に、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさを示している。
 図27では、図中、上側には周期情報0が更新されたタイミングが示されており、図中、中央には周期情報1が更新されたタイミングが示されており、図中、下側には周期情報2が更新されたタイミングが示されている。
 また、ここでは周期情報選択部121により周期情報1と周期情報2が取得され、これらの周期情報1と周期情報2のうちの何れかが選択周期情報として選択されるものとする。
 この場合、周期情報0と周期情報1とを比較すると、それらの周期情報の更新のタイミングのずれ(時間差)は大きくなっている。そのため、自端末の観客と、周期情報1に対応する他者(他の観客)との反応を示す動きの向きが異なっている可能性がある。
 これに対して、周期情報0と周期情報2とを比較すると、それらの周期情報の更新のタイミングのずれ(時間差)は周期情報1における場合と比較して大幅に小さくなっている。そのため、自端末の観客と、周期情報2に対応する他者(他の観客)との反応を示す動きの向きが同じ向きとなっている可能性が高い。
 そこで、周期情報選択部121は、周期情報1と周期情報2のうち、周期情報0との更新タイミングのずれがより小さい周期情報2を優先的に選択周期情報として選択する。これにより、自端末の観客と、他者(他の観客)との反応を示す動きの向きが異なっている可能性等の原因によるずれを、より確実に抑制することができる。
(映像から生成できる周期情報を用いる)
 さらに、例えばリモートライブの演目によっては、配信映像(または生映像)から演者が手や体でリズムを取る動きを公知の画像認識や動き検出等の方法により検出し、センシング情報解析部51における場合と同様の処理を行って、周期情報を得ることができる。
 そこで、周期情報選択部121が、配信映像から周期情報を生成し、その周期情報を周期情報0の代わりに用いて、上述の方法により選択周期情報の選択を行ってもよい。この場合、周期情報選択部151においても、生映像から生成した周期情報を、周期情報0の代わりに用いることができる。
(基準となる周期情報を受信する)
 また、例えば配信者、特にPA(Public Address)担当者が、収録/配信装置13等により、基準となる周期情報を、ネットワーク14上のサーバを介して観客端末11や演者端末12に送信するようにしてもよい。
 そのような場合、例えば観客端末11の周期情報選択部121や、演者端末12の周期情報選択部151は、受信した基準となる周期情報を周期情報0の代わりに用いて、選択周期情報の選択を行う。
 その他、例えば周期情報選択部121や周期情報選択部151において、受信された基準となる周期情報が、選択周期情報の1つとして用いられるようにしてもよい。
 このような基準となる周期情報を利用する方法は、テンポ情報の取得が困難な演目等において特に有効である。
(半周期の履歴を解析する)
 さらに、各周期情報について過去の半周期の値の履歴を解析し、半周期の分散が小さい周期情報を優先して選択してもよい。なぜなら半周期の分散が小さい場合、観客(ペンライト)は安定した周期運動をしている可能性が高いからである。
 具体的には、例えば図28に示す周期情報が得られたとする。なお、図28において、図中、左上側および左下側には、それぞれ1つの周期情報IDについての各時刻の周期情報を構成する角度情報(角度)および半周期情報(半周期)が示されている。
 また、図中、右上側および右下側には、図中、左上側および左下側に示した周期情報が取得(受信)されたタイミングが示されている。特に、横軸は時間(時刻)を示しており、図中、上側に凸の矢印は周期情報が更新されたタイミング、つまり左右に動くペンライトの動く向きが切り替わったタイミングを示している。また、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさを示している。
 図中、上側に示す周期情報の例では、各時刻における半周期は1.1乃至1.5の間の値となっており、周期情報の分散が小さいことが分かる。このような周期情報に対応する観客の反応、つまりペンライトの動きは、一定時間間隔で左右に振られている周期性の高い動きとなっている。
 したがって、このような周期情報を選択周期情報として用いれば、周期的な動きをするオブジェクトの反応映像を容易に生成することができる。
 そこで、周期情報選択部121や周期情報選択部151は、他のユーザ(他者)ごとに、周期情報の履歴を解析することで周期情報に基づく半周期の分散を求め、得られた分散の小さい周期情報を優先的に選択周期情報として選択するようにするとよい。
 これに対して、図中、下側に示す周期情報の例では、各時刻における半周期は0.3乃至2.7の間の値となっており、周期情報の分散が大きいことが分かる。
 すなわち、周期情報に対応する観客の反応(ペンライトの動き)にはむらがあり、その反応は周期性の低い動きとなっている。
 したがって、このような周期情報は、反応映像の生成に用いるのには適していないため、選択周期情報として選択されにくくするとよい。
 以上のように、周期情報選択部121や周期情報選択部151では、各時刻で受信した他者周期情報の履歴の解析結果に基づいて、選択周期情報が選択されるようにすることができる。
〈周期情報とオブジェクトの対応について〉
 周期情報選択部121や周期情報選択部151では、以上において説明した方法により1個以上の選択周期情報が選択されるが、実際に反応映像に含まれる各オブジェクトをどの選択周期情報から生成するかは、例えば図29に示す対応テーブルにより管理される。
 図29では、反応映像に50個のオブジェクトが表示される場合における対応テーブルの例が示されている。例えば各オブジェクトは、各観客端末11に対応する観客に対応している。なお、以下では、反応映像上のオブジェクトを識別(特定)するIDをオブジェクトIDと呼ぶこととする。
 対応テーブルは、各オブジェクトをどの選択周期情報に基づいて生成するかを定義するものである。対応テーブルでは、オブジェクトIDと、そのオブジェクトIDにより示されるオブジェクトの生成に用いられる選択周期情報の周期情報IDとが対応付けられている。
 この例では、対応テーブルに基づき、画面上に50個のオブジェクトを配置した反応映像が生成される。
 このとき、例えばオブジェクトIDが26乃至35である合計10個のオブジェクトは、周期情報IDが2である周期情報2に基づいて生成されることが分かる。この周期情報2は、例えば観客端末11Bにおいて生成された周期情報となっている。
 なお、反応映像上に表示するオブジェクトの最大数は、例えば反応映像が表示される映像/音声出力装置42や映像/音声出力装置81の画面解像度、観客端末11や演者端末12の演算リソース等に基づいて定められるようにしてもよい。
 また、どのオブジェクトをどの選択周期情報に基づき生成するかは、反応映像上における各オブジェクトの配置位置等に応じて定められるようにすればよい。例えば、近い位置に配置されるオブジェクトが同じ選択周期情報に基づき生成されるようにすれば、オブジェクトの動きが揃った違和感のない反応映像を得ることができる。
 ここで、具体的な例として、反応映像上の9個のオブジェクトを生成する場合について図30を参照して説明する。
 図30では、図中、右側には対応テーブルが示されており、図中、左側には対応テーブルに従って生成されたオブジェクトとしてのペンライトが示されている。
 この例では、オブジェクトIDが1乃至3であるオブジェクトは、周期情報IDが7である選択周期情報に基づいて生成される。そのため、図中、左側の上段に示すように、オブジェクトIDが1乃至3である各オブジェクトは、周期情報7により示される動きと同じ動きをしており、それらのオブジェクトの向きも同じ向きとなっている。
 また、オブジェクトIDが4乃至6であるオブジェクトは、周期情報IDが2である選択周期情報に基づいて生成される。そのため、図中、左側の中段に示すように、オブジェクトIDが4乃至6である各オブジェクトは、周期情報2により示される動きと同じ動きをしており、それらのオブジェクトの向きも同じ向きとなっている。
 但し、オブジェクトIDが4乃至6であるオブジェクトの動き(向き)は、異なる周期情報から生成されたオブジェクトIDが1乃至3であるオブジェクトの動きとは異なる動きとなっていることが分かる。
 同様に、オブジェクトIDが7乃至9であるオブジェクトは、周期情報IDが9である選択周期情報に基づいて生成される。そのため、図中、左側の下段に示すように、オブジェクトIDが7乃至9である各オブジェクトは、周期情報9により示される動きと同じ動きをしており、それらのオブジェクトの向きも同じ向きとなっている。
 但し、オブジェクトIDが7乃至9であるオブジェクトの動き(向き)は、異なる周期情報から生成された、オブジェクトIDが1乃至3であるオブジェクトの動きや、オブジェクトIDが4乃至6であるオブジェクトの動きとは異なる動きとなっていることが分かる。
 例えば、図19を参照して説明したコンテンツ再生処理におけるステップS44では、必要に応じて適宜、周期情報選択部121によって選択周期情報を選択する処理と、選択周期情報の選択結果に応じて、対応テーブルを生成(更新)する処理が行われる。
 この場合、周期情報選択部121は、選択周期情報と対応テーブルを反応フレーム生成部122および反応音声生成部123に供給する。
 なお、選択周期情報を選択する処理と対応テーブルを生成する処理は、例えばリモートライブの演目(楽曲)が変わったときに行われたり、アンコールを要望する拍手や掛け声が発せられている期間中に継続して繰り返し行われたりすることが考えられる。
 また、例えば図20を参照して説明した反応再生処理におけるステップS72においても、必要に応じて適宜、周期情報選択部151によって選択周期情報を選択する処理と、選択周期情報の選択結果に応じて、対応テーブルを生成(更新)する処理が行われる。
〈反応映像の生成について〉
 次に、図21に示した反応映像/音声生成部55の反応フレーム生成部122、および図22に示した反応映像/音声生成部92の反応フレーム生成部152の動作について説明する。
 例えば、反応映像は配信映像と同様のフレームレート(例えば、30fps)でオブジェクトの角度、つまりオブジェクトの向きが変化する映像とされる。
 したがって、反応映像を生成する処理は、配信映像を復号する処理に同期して周期的に実行され、配信映像の1フレーム分に相当する画像が出力される。
 ここで、図31を参照して反応映像を生成する処理の概要について説明する。
 なお、以下では、説明を簡単にするため、オブジェクトの動きとして角速度が一定である動きを仮定し、溜め状態となる周期情報(付加情報)はなく、周期情報の通知(送受信)ができない等の問題も生じないこととする。
 また、図31において、横軸は時間(時刻)を示しており、図中、上側に凸の矢印は周期情報の更新のタイミング、つまり左右に動くペンライトの動く向きの切り替わりのタイミングを示している。また、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさ、つまりペンライトの向き(角度)を示している。
 図31の上側には、1つの周期情報IDについての各時刻における選択周期情報が示されている。
 ここでは、現在時刻がtであり、最後に周期情報が取得(受信)された時刻がtとなっている。また、時刻tにおける周期情報を構成する角度情報により示される角度αが135°であり、時刻tにおける周期情報を構成する半周期情報により示される半周期の長さがTとなっている。
 さらに、時刻tの直前に周期情報が取得(受信)された時刻は(t-T)であり、その時刻(t-T)における周期情報を構成する角度情報により示される角度αbeforeが45°となっている。
 いま、現時刻である時刻tにおけるオブジェクト(ペンライト)の角度αを求めることを考える。
 ここでは、時刻t、時刻tにおける周期情報、すなわち角度αと半周期T、時刻(t-T)における角度αbeforeに基づいて角度αを求め、その角度αにより示される方向を向いているオブジェクトの画像が生成される。
 具体的には、まず直近で取得された2つの周期情報から角速度が求められる。
 この例では半周期Tで角度情報により示される角度が角度αbefore=45°から角度α=135°に変化しているので、時刻(t-T)から時刻tの間での角速度ωは、次式(1)により求めることができる。
Figure JPOXMLDOC01-appb-M000001
 また、時刻t以降の次の半周期では、オブジェクトは時刻(t-T)から時刻tの間における場合と反対向きの同じ角速度で動くと予想される。
 したがって、時刻tから時刻(t+T)の間における角速度ωは、上述の式(1)における符号を反転させて次式(2)により求めることができる。
Figure JPOXMLDOC01-appb-M000002
 図中、上側の例では、時刻tから時刻(t+T)の間における角速度ωは、式(2)により、ω=-(135-45)/Tとなる。
 次に、図中、下側に示すように、求められた角速度ωから、時刻tにおけるオブジェクトの向き、すなわちオブジェクトの向きを示す角度αが求められる。
 具体的には、角速度がωで現在時刻がtであるならば、求める角度αは、最後に周期情報を受信した(更新のあった)時刻tと、時刻tにおける角度α=135°を用いて、次式(3)により求めることができる。
Figure JPOXMLDOC01-appb-M000003
 図中、下側の例では、角度α=135°であるので、式(3)により、α=135+ω(t-t0)となる。
〈反応フレーム生成処理の説明〉
 次に、反応フレーム生成部122により行われる処理について、さらに具体的に説明する。
 図19を参照して説明したコンテンツ再生処理のステップS44では、反応フレーム生成部122は、選択周期情報に基づいて1フレーム分の反応映像である反応フレームを生成する反応フレーム生成処理を行う。
 以下、図32のフローチャートを参照して、反応フレーム生成部122により行われる反応フレーム生成処理について説明する。
 ステップS101において反応フレーム生成部122は、処理対象とするオブジェクトを示すオブジェクトIDと、そのオブジェクトIDに対応する周期情報を取得する。
 例えば反応フレーム生成部122は、予め周期情報選択部121から対応テーブルを取得して記録しており、対応テーブルにおいて、取得したオブジェクトIDに対応付けられている周期情報IDにより示される選択周期情報を周期情報選択部121から取得する。
 ステップS102において反応フレーム生成部122は、取得した選択周期情報について、現時刻におけるオブジェクト(ペンライト)の向きを示す角度αが算出済みであるか否かを判定する。
 例えば図29に示した対応テーブルの例では、オブジェクトIDが1であるオブジェクト(ペンライト)と、オブジェクトIDが2乃至25であるオブジェクトとでは、同一の周期情報7に基づいて角度αが算出される。
 そのため、例えばオブジェクトIDが1であるオブジェクトについて角度αが既に算出されている場合、オブジェクトIDが2乃至25であるオブジェクトが処理対象とされているときには、ステップS102では角度αは算出済みであると判定される。
 同様に、例えばオブジェクトIDが26であるオブジェクトの角度αが算出済みである場合、オブジェクトIDが27乃至35であるオブジェクトの角度αは算出済みであると判定される。また、オブジェクトIDが36であるオブジェクトの角度αが算出済みである場合、オブジェクトIDが37乃至50であるオブジェクトの角度αは算出済みであると判定される。
 ステップS102において角度αが算出済みでないと判定された場合、ステップS103において反応フレーム生成部122は、周期情報が更新されたか否かを判定する。
 例えばステップS101で、これまでに取得されていない新たな選択周期情報が取得された場合、周期情報が更新されたと判定される。
 ステップS103において周期情報が更新されたと判定された場合、ステップS104において反応フレーム生成部122は、オブジェクトの動きの角速度ωを更新する。
 例えば反応フレーム生成部122は、図31を参照して説明したように、更新後(最新)の選択周期情報の角度情報により示される角度α、更新後の選択周期情報の半周期情報により示される半周期T、更新前の選択周期情報の角度情報により示される角度αbeforeに基づいて、次式(4)を計算することで角速度ωを算出する。この式(4)は上述の式(2)と同様の式である。
Figure JPOXMLDOC01-appb-M000004
 なお、ここでは角度αbeforeが存在するものとして説明を行っているが、周期情報を初めて受信したときには角度αbeforeは存在しないので、そのような場合にはステップS104乃至ステップS108の処理はスキップされる。
 ステップS104の処理が行われたか、またはステップS103において周期情報が更新されていない、つまり新たな選択周期情報は受信されていないと判定された場合、ステップS105の処理が行われる。
 ステップS105において反応フレーム生成部122は、オブジェクトの動きの角速度ωに基づいて、現時刻tにおけるオブジェクトの動きの向きを示す角度αを算出する。
 例えば反応フレーム生成部122は、最後に選択周期情報を受信した時刻t、現在時刻t、角速度ω、および角度αに基づいて次式(5)を計算することで角度αを求める。式(5)は上述の式(3)と同様の式である。
Figure JPOXMLDOC01-appb-M000005
 なお、角度αの最大値αmaxまたは最小値αminを、αmax≒αbeforeまたはαmin≒αbeforeとなるように定めておき、角度αが最大値αmaxまたは最小値αminに達した場合には、次に選択周期情報が更新されるまで、角度αの計算方法が次式(6)に示すように変更されるようにしてもよい。
Figure JPOXMLDOC01-appb-M000006
 式(6)において±δは、オブジェクトとしてのペンライトを手で保持することによる揺れを示すランダムな微小値である。すなわち、この段階でオブジェクトは右または左に傾いたまま保持される。
 また、ステップS102において角度αが算出済みであると判定された場合、ステップS103乃至ステップS105の処理はスキップされ、処理はステップS106へと進む。
 ステップS106において反応フレーム生成部122は、処理対象のオブジェクトの角度αに対して、一定量以下のランダム値(ランダムな値)を加算する。
 この処理により、同一の選択周期情報から生成された各オブジェクトの動きが全く同一となって、機械的な動きに感じられてしまうことを防止することができる。
 ステップS105の処理が行われたか、またはステップS106の処理が行われると、その後、ステップS107の処理が行われる。
 ステップS107において反応フレーム生成部122は、処理対象のオブジェクトが角度αにより示される方向を向いている1個分のオブジェクトの画像をオブジェクト画像として生成する。
 この場合、リモートライブに対する投げ銭の額、すなわち支援のための消費金額や、物品の事前購入有りといった観客に対応するオブジェクトのメタ情報に基づき、特定のオブジェクトIDを持つオブジェクトは通常とは異なる特別な表示形式で表示されるようにしてもよい。また、例えば各観客端末11が、固有のオブジェクト情報(3Dモデル等)をメタ情報として周期情報とともに一度だけ送信しておく等の方法により、そのメタ情報に基づき特定のオブジェクトの表示方法を変えることができるようにしてもよい。
 以上のような方法により、各観客に対して実在する他者に対応するオブジェクトを見ていることをより強く認識させ、他者と共にライブイベントに参加している感覚をより強く持たせることができる。
 ステップS108において反応フレーム生成部122は、生成しようとする反応映像の1フレーム分の画像(フレーム画像)上に、ステップS107で生成した処理対象のオブジェクトのオブジェクト画像を上書きして配置する。換言すれば、フレーム画像にオブジェクト画像が合成される。
 なお、フレーム画像上におけるオブジェクト画像の配置位置は、オブジェクトIDごとに予め決めておいてもよいし、自端末(映像/音声出力装置42)の画面解像度等によって動的に変えるようにしてもよい。例えば同じ周期情報IDに紐づくオブジェクトは、フレーム画像内の比較的近い位置に配置する等の方法が考えられる。
 反応フレーム生成部122では、以上において説明した処理が、反応映像に表示されるオブジェクトの数だけ行われる。
 すなわち、ステップS109において反応フレーム生成部122は、まだ処理対象としていない処理すべきオブジェクトがあるか否かを判定する。
 ステップS109において、まだ処理すべきオブジェクトがあると判定された場合、処理はステップS101に戻り、上述した処理が繰り返し行われる。すなわち、まだ処理対象とされていないオブジェクトが、新たな処理対象のオブジェクトとされてオブジェクト画像が生成され、そのオブジェクト画像に基づいてフレーム画像が更新される。
 これに対して、ステップS109において処理すべきオブジェクトがないと判定された場合、反応フレーム生成部122は、最後に行ったステップS108の処理により得られた(更新された)フレーム画像を、反応映像の1フレーム分の画像として映像/音声重畳部56に出力し、反応フレーム生成処理は終了する。
 なお、図19を参照して説明したコンテンツ再生処理のステップS44において、反応音声が生成されない場合もある。
 そのような場合、反応音声生成部123での処理は行われず、反応音声生成部123から0データ(ゼロデータ)が反応音声として出力されるようにしてもよいし、反応音声が無効化されるようにしてもよい。
 また、以上において説明した反応フレーム生成処理では、溜め時間を示す経過時間pstop、つまり溜めの時間を示す付加情報がない場合について説明した。
 これに対して、溜めの時間を示す付加情報がある場合には、角速度ωの算出時には、上述の式(4)に代えて次式(7)の計算を行うようにすればよい。
Figure JPOXMLDOC01-appb-M000007
 なお、式(7)は、付加情報により示される溜めの時間をpstopとして、式(4)における半周期Tを「T-pstop」に置き換えた式となっている。
 このようにすることで、選択周期情報の更新後、比較的早い段階で角度αが最大値αmaxまたは最小値αminに到達し、角度αの変化が少ない動きとなって、溜め状態の表現が可能となる。
 以上のようにして反応フレーム生成部122は、選択周期情報に基づいて反応映像を生成する。特に反応フレーム生成部122では、周期情報選択部121で選択された1つ以上の周期情報に基づいて複数のオブジェクトのオブジェクト画像が生成され、それらのオブジェクト画像がフレーム画像上に配置される。このようにすることで、複数のオブジェクトの動き(反応)が揃った違和感の少ない反応映像を提示することができる。
 なお、図20を参照して説明した反応再生処理のステップS72においても、反応フレーム生成部152によって、図32を参照して説明した反応フレーム生成処理と同様の処理が行われる。したがって、演者端末12においても違和感の少ない反応映像を提示することができる。
〈第1の実施の形態の他の例1〉
〈反応映像と反応音声を生成する例〉
 なお、以上においては、反応映像のみを生成する例について説明したが、反応映像と反応音声の両方が生成されるようにしてもよい。
 以下では、反応映像と同時に反応音声も生成される場合について説明する。特に、以下では、一例として、反応映像は観客に対応するオブジェクトが拍手をする映像であり、反応音声は多人数の拍手音である場合について説明する。
 このような場合においても、リモートライブシステムの構成は図7に示した構成とされるため、ここでは以下に示す第1の実施の形態との差異についてのみ説明する。
 ・センシング情報解析部51の動作
 ・反応音声生成部123および反応音声生成部153の動作
 なお、以下で説明する例では、反応映像におけるオブジェクトが第1の実施の形態における場合とは異なるため、厳密には反応フレーム生成部122および反応フレーム生成部152の動作も第1の実施の形態における場合とは異なる。
 しかし、後述するように、周期情報に角度に関する情報(角度情報)が含まれていない点が異なるだけであり、以下で説明する例においても第1の実施の形態における場合と同様の方法により反応映像を生成することができるため、その説明は省略する。
(周期情報の例)
 まず、周期情報の例について説明する。
 例えば観客の動き(反応)が拍手する動きである場合、各観客端末11で生成される周期情報は、図33の左側に示すように前回、観客による拍手が生じてから、今回、拍手が生じるまでの経過時間を示す経過時間情報となる。すなわち、経過時間情報は、観客の反応としての拍手の1周期の時間(長さ)を示す時間情報となっている。
 これは、拍手をする動きの1周期の時間を示す経過時間情報があれば、拍手という動きをするオブジェクトを含む反応映像や、拍手音からなる反応音声を生成することができるからである。
 反応音声生成部123や反応音声生成部153では、図中、右側に示すように時系列の周期情報に基づいて拍手のタイミングが定義される。そして、そのタイミングに従って1回分の拍手音を複数回再生することで、観客1人分に対応する1つのオブジェクト分の再生音が得られる。
 なお、図中、右側において横軸は時間(時刻)を示しており、図中、上側に凸の矢印は所定の1つの周期情報iに基づき特定された拍手が生じたタイミングを示している。
 また、図中、右側に示す波形は、拍手が生じたタイミングで再生される拍手音の波形からなる、1つのオブジェクトについての拍手の再生音の波形を示している。この例では、周期情報iに基づき生成された3回分の拍手の音が再生される。
(センシング情報解析部の動作)
 続いて、センシング情報解析部51の動作について説明する。
 センシング情報解析部51の動作は、基本的には第1の実施の形態における場合と同様である。しかし、例えばセンシング情報に基づいて観客の動きを検出する代わりに、センシングデバイス41としてのマイクロフォンで収音(録音)して得られた音声を公知の音声区間検出等の処理により解析することで拍手のタイミングを検出し、その検出結果から周期情報としての経過時間情報を生成してもよい。すなわち、センシング情報解析部51により、センシング情報としての収音信号が周期情報へと変換されるようにしてもよい。
(反応音声生成部の動作)
 次に、反応音声生成部123や反応音声生成部153の動作の概要を図34に示す。
 図34の左側には、いくつかの選択周期情報に基づいて生成されたN人分、すなわちN個のオブジェクトのそれぞれについての再生音1乃至再生音Nの波形が示されている。
 ここでは、選択周期情報に基づいて1つのオブジェクトの拍手音である再生音を生成する処理がN回行われて、N個の再生音1乃至再生音Nが生成される。
 そして、それらの再生音1乃至再生音Nが合成、すなわち加算(合算)されて1つの反応音声が生成される。図中、右側には、生成された反応音声の波形が示されており、この反応音声はN人(N個のオブジェクト)が拍手したときの拍手音、つまりN人分の拍手音となっている。
〈反応音声生成処理の説明〉
 この実施の形態では、図19を参照して説明したコンテンツ再生処理のステップS44では、反応フレーム生成部122により図32を参照して説明した反応フレーム生成処理と同様の処理が行われるとともに、反応音声生成部123により反応音声生成処理が行われる。
 以下、図35のフローチャートを参照して、反応音声生成部123により行われる反応音声生成処理について説明する。
 ステップS141において反応音声生成部123は、処理対象とするオブジェクトを示すオブジェクトIDと、そのオブジェクトIDに対応する周期情報を取得する。
 例えば反応音声生成部123は、予め周期情報選択部121から対応テーブルを取得して記録しており、対応テーブルにおいて、取得したオブジェクトIDに対応付けられている周期情報IDにより示される選択周期情報を周期情報選択部121から取得する。
 ステップS142において反応音声生成部123は、周期情報が更新されたか否かを判定する。例えばステップS141で、これまでに取得されていない新たな選択周期情報が取得された場合、周期情報が更新されたと判定される。
 ステップS142において周期情報が更新されたと判定された場合、ステップS143において反応音声生成部123は、ステップS141で取得した選択周期情報と、予め記録している拍手音の音声データとに基づいて、1回分の拍手音を再生音として生成する。
 このとき、同一の選択周期情報が複数のオブジェクトの再生音の生成に用いられる場合には、再生音における拍手音の再生タイミングが必ず一定量以下の時間だけずらされるようにする。これは、複数のオブジェクトの拍手音の再生タイミングが完全に一致してしまうと不自然になってしまうからである。
 また、ステップS142において周期情報が更新されていないと判定された場合、ステップS143の処理は行われず、処理はステップS144へと進む。
 ステップS143の処理が行われたか、またはステップS142において周期情報が更新されていないと判定されると、ステップS144の処理が行われる。
 すなわち、ステップS144において反応音声生成部123は、まだ処理対象としていない処理すべきオブジェクトがあるか否かを判定する。
 ステップS144において、まだ処理すべきオブジェクトがあると判定された場合、処理はステップS141に戻り、上述した処理が繰り返し行われる。すなわち、まだ処理対象とされていないオブジェクトが、新たな処理対象のオブジェクトとされて、そのオブジェクトについての再生音が生成される。
 これに対して、ステップS144において処理すべきオブジェクトがないと判定された場合、ステップS145において反応音声生成部123は、これまでに生成した全てのオブジェクトの再生音を合成することで反応音声を生成する。
 反応音声生成部123は、生成した反応音声を映像/音声重畳部56に出力し、反応音声生成処理は終了する。
 以上のようにして反応音声生成部123は、選択周期情報に基づいてオブジェクトごとに再生音を生成し、それらの再生音を合成して反応音声とする。特に反応音声生成部123では、例えば周期情報選択部121で選択された1つの周期情報に基づいて複数のオブジェクトの再生音を生成すれば、複数のオブジェクトの音声(反応)が揃った違和感の少ない反応音声を提示することができる。
 なお、図20を参照して説明した反応再生処理のステップS72においても、反応音声生成部153によって、図35を参照して説明した反応音声生成処理と同様の処理が行われる。したがって、演者端末12においても違和感の少ない反応音声を提示することができる。
 以上のような本技術では、選択する周期情報の種類や数を動的に変化させることによって、一般的なリモートライブシステムではできなかった表現を実現することができる。
 例えば、ライブイベントの規定の演目が終了した後、アンコールを示すために反応音声の拍手音が少しずつ揃っていき、手拍子になっていくような表現が可能となる。
 そのような拍手音が手拍子へと変わっていくような反応音声による表現について、図36を参照して説明する。なお、ここでは周期情報選択部121において処理が行われる場合について説明するが、周期情報選択部151における場合の処理も同様の処理となる。
 図36には、選択周期情報に基づきオブジェクトごとに生成された再生音(拍手音)の時間波形が示されており、図中、横方向は時間(時刻)を示している。特に、ここではオブジェクトの数、すなわち周期情報の取得元となる観客端末11の数はN個となっている。
 図中、上側に示すように、通常では、周期情報選択部121は受信されたN個の周期情報を全て選択周期情報として選択し、選択周期情報に基づいてオブジェクトごとに拍手音からなる再生音を生成する。すなわち、全ての周期情報がパススルーされる。
 図中、上側にはN個のオブジェクトごとに生成された再生音1乃至再生音Nの波形が示されている。この例では、オブジェクトごとに選択周期情報が異なるため、拍手音は各周期情報に従いばらばらのタイミングで再生される。したがって、それらの再生音を合成(加算)して得られる反応音声は、会場で多数の観客が各々のタイミングで拍手しているように聞こえる音声となる。
 また、周期情報選択部121は、何らかのトリガ等によってアンコール開始を検知した場合には、時間の経過とともに選択周期情報として選択する周期情報の数をN個から少しずつ減らしていく。ここでは、例えば選択周期情報の数をN個から1個まで少しずつ減らしていくとする。
 すると、選択周期情報が1個となったときには、例えば図中、下側に示すようなN個のオブジェクトごとの再生音1乃至再生音Nが得られる。特に、図中、下側では、図中、上側における場合と比較して、各再生音における拍手のタイミングが略同じとなっている。
 選択周期情報の数を時間とともに少なくしていくと、各オブジェクトに対応する再生音(拍手音)のタイミングも時間とともに揃ってくる。そのため、各オブジェクトの再生音を合成して得られる反応音声は、多人数の拍手というよりも、むしろ手拍子のように聞こえるようになっていく。
 なお、上述のようにオブジェクトの拍手音の再生タイミングには、一定範囲以下のランダムな揺らぎ(ずれ)が必ず付加されるようになされる。
 また、このような拍手音が手拍子へと変わっていくような反応音声の表現を実現するためには、アンコール開始を検知するためのトリガが必要である。
 そこで、周期情報選択部121は、例えば周期情報が演目終了後も一定時間以上続く(継続して更新される)場合に、アンコールが開始されたと判定するようにしてもよい。
 また、例えばアンコールの実施が判断された段階で、配信者の操作等により、収録/配信装置13が配信映像/音声に対して、アンコールが開始された旨のトリガ情報を付加してネットワーク14上のサーバに配信映像/音声を送信するなどしてもよい。
〈第1の実施の形態の他の例2〉
〈リソースに応じた処理について〉
 また、以上においては、各観客端末11や演者端末12が他者の周期情報を全て取得(受信)する例について説明したが、通信リソースや各観客端末11や演者端末12の演算リソースの都合上、多数の周期情報を受信して解析することが困難である場合もある。
 そこで、例えばネットワーク14上のサーバにおいて、各周期情報について過去の半周期の値の履歴を解析し、分散が異常に大きいなど各観客端末11や演者端末12で選択される可能性の低い周期情報は配信されないようにしてもよい。
 また、例えば各観客端末11や演者端末12が自端末の演算リソース等に基づいて、自端末で受信可能な周期情報の数の目安を予めネットワーク14上のサーバに対して通知しておくようにしてもよい。
 この場合、サーバは、予め通知された、受信可能な周期情報の数に基づいて限定された所定数の周期情報のみを観客端末11や演者端末12に送信する。すなわち、サーバでは、各端末のリソースに応じて送信前に周期情報の事前スクリーニングが行われる。
 なお、サーバ上で周期情報の解析に時間がかかると、周期情報の送信の遅延が増大してしまうため、そのような遅延の発生を避けるために以下のような簡易的な方法を用いるようにしてもよい。
 すなわち、まず1つ目の方法として、各周期情報は各々の観客に対応する情報であることから、サーバは投げ銭や物品購入金額といったメタ情報が所定の基準を満たす周期情報を優先して(優先的に)各観客端末11や演者端末12に送信することが考えられる。
 なぜならライブイベントに多額を投入する、いわゆる「ガチ勢」と呼ばれている観客は、自分がライブイベントを一緒に作っているという意識が強いはずであり、こうした観客の周期情報は演目との親和性が高いと考えられるからである。
 なお、例えばサーバから観客端末11や演者端末12に対して、周期情報に付加するか、または個別に、投げ銭の額等を示すメタ情報を送信するようにしてもよい。このメタ情報は、投げ銭の額等に基づくユーザの優先度、すなわち周期情報の優先度を示しているということができる。この場合、例えば観客端末11の周期情報選択部121や演者端末12の周期情報選択部151は、サーバから受信したメタ情報に基づいて、優先度の高い周期情報を選択周期情報として選択する。
 また、2つ目の方法として、サーバが観客端末11の過去の半周期の値の履歴を解析し、半周期の分散が小さい周期情報を優先的に各観客端末11や演者端末12に送信することが考えられる。
 これらの方法で選択的に周期情報を送信する場合には、観客端末11や演者端末12において、サーバからリモートライブへの参加者、つまり観客の人数に関する情報だけは別途受信するようにするとよい。そうすることで、観客端末11や演者端末12において、取得した周期情報の数が少なくても、表示できるオブジェクトの数は変わらないようにすることができる。
〈第2の実施の形態〉
〈遅延量の算出と反応の予測について〉
 ところで、観客端末11や演者端末12において、取得した他者の周期情報の遅延量を求め、その遅延量の分だけ時刻を進めた他者の反応を予測することもできる。
 以下では、他者の現時刻の反応を予測し、その予測結果に基づいて反応映像/音声を生成する例について説明する。
 まず、図37を参照して、本技術の第2の実施の形態の概要について説明する。
 図37では、反応映像/音声生成部55および反応映像/音声生成部92の簡易的な構成が示されている。
 反応映像/音声生成部では、取得した他者のN個の周期情報について、自端末の基準時刻からの遅延量が計算され、その遅延量を補正した反応映像/音声が予測されて生成される。
 換言すれば、他者の反応について、それらの他者の反応ごとに自端末から見た遅延量(基準時刻に対する他者周期情報の遅延量)が求められ、その遅延量の分だけ先の時刻(未来)の反応を予測することで、自端末から見た他者の反応の遅延が補正され、違和感のない反応映像が提示される。
 具体的には、まず各観客端末11は、送信する周期情報に自端末で視聴中の配信映像のタイムスタンプも付加する。すなわち、送信する周期情報に対して、その周期情報の生成時(生成時刻)における再生中の配信映像(コンテンツ)のタイムスタンプを付加することで、周期情報がどの時刻(再生時刻)の配信映像に対する反応であるかについての情報が付加されたことになる。
 以下では、特に周期情報IDがn(例えば0≦n≦N)である周期情報nに付加されたタイムスタンプをタイムスタンプnとも記すこととする。
 また、観客端末11および演者端末12は、受信した他者の周期情報のそれぞれに対して、自端末の基準時刻に基づいて、自端末から見た周期情報の遅延量を計算する。
 この例では、N個の周期情報1乃至周期情報Nが受信されており、それらのN個の周期情報ごとに、基準時刻に基づいて遅延量が求められている。これにより、周期情報1乃至周期情報Nに対して、遅延量を示す遅延情報1乃至遅延情報Nが得られている。
 ここで、観客端末11における基準時刻は、例えば観客端末11自身(自端末)において視聴中の配信映像の時刻、つまり現時点(現時刻)における再生中の配信映像の再生時刻とされる。また、例えば演者端末12における基準時刻は、演者端末12において取得される現在時刻、つまりシステム時刻などとされる。
 また、自端末から見た周期情報の遅延量は、基準時刻から周期情報に付加されたタイムスタンプの値を減算して得られる値(基準時刻-周期情報に含まれるタイムスタンプ)とされる。
 観客端末11および演者端末12は、周期情報に対応する遅延情報から、それらの遅延情報により示される遅延量分の時間分だけ未来の反応映像/音声を予測する。
 自端末においては、予測により得られた反応映像/音声は、視聴中の配信映像と同時刻のものとなるので、自端末から見た他者の反応の遅延はなくなったかのように見える。すなわち、自端末から見た他者の反応の遅延が補正された反応映像/音声が得られる。
 したがって、第2の実施の形態では、上述の第1の実施の形態とは異なり、観客が意図をもって反応をずらすような表現、例えばリモートライブでは困難なウェーブ等の表現を実現することが可能となる。
 なお、第2の実施の形態においても、リモートライブシステムの構成は図7に示した構成とされるため、ここでは以下に示す第1の実施の形態との差異についてのみ説明する。
 また、説明を簡単にするため、観客端末11および演者端末12のそれぞれにおいて、NTP(Network Time Protocol)等公知の方法によりシステム時刻の同期は十分な精度でとれているものとして説明を続ける。
(反応映像/音声生成部の構成)
 第2の実施の形態では、反応映像/音声生成部55は、例えば図38に示すように構成される。なお、図38において図21における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 反応映像/音声生成部55は、遅延量算出部181、反応フレーム生成部122、および反応音声生成部123を有している。
 遅延量算出部181には、タイムスタンプの付加された他者周期情報が受信部53から供給されるとともに、配信映像の再生時刻が自端末の基準時刻として配信映像/音声復号部54から供給される。
 この例では、N個の周期情報1乃至周期情報Nと、それらの周期情報1乃至周期情報Nに付加されたN個のタイムスタンプ1乃至タイムスタンプNとが遅延量算出部181に供給されている。また、配信映像/音声復号部54から供給される自端末の基準時刻は、補助情報と同様に、自端末(観客端末11)の環境を示す情報であるということができる。
 遅延量算出部181は、他者周期情報に付加されたタイムスタンプと、自端末の基準時刻とに基づいて、他者周期情報ごとに、自端末から見た他者周期情報の遅延量、すなわち他者周期情報の基準時刻からの遅延量を示す遅延情報を生成する。
 また、遅延量算出部181は、他者周期情報と遅延情報を反応フレーム生成部122および反応音声生成部123に供給する。
 この例では、供給された周期情報1乃至周期情報Nのそれぞれに対して、遅延情報1乃至遅延情報Nのそれぞれが生成され、周期情報1乃至周期情報Nと遅延情報1乃至遅延情報Nが、反応フレーム生成部122および反応音声生成部123に供給される。
 反応フレーム生成部122は、遅延量算出部181から供給された周期情報nおよび遅延情報n(但し、n=1,2,…,N)に基づいて、反応映像の1フレーム分のフレーム画像を生成し、映像/音声重畳部56に供給する。
 反応音声生成部123は、遅延量算出部181から供給された周期情報nおよび遅延情報n(但し、n=1,2,…,N)に基づいて反応音声を生成し、映像/音声重畳部56に供給する。
 以上のような構成の反応映像/音声生成部55は、受信した他者の周期情報が全て用いられて(選択されて)遅延情報が生成され、周期情報とともに遅延情報が反応フレーム生成部122および反応音声生成部123に供給される点で、第1の実施の形態における場合と異なる。
 なお、第2の実施の形態では、反応映像/音声生成部92の構成も、図38に示した反応映像/音声生成部55の構成と同様の構成となるため、その図示および説明は省略する。但し、反応映像/音声生成部92においては、演者端末12により取得されたシステム時刻(現在時刻)が自端末の基準時刻として、遅延量算出部181に対応するブロックに供給される。
(センシング情報解析部の動作)
 続いて、センシング情報解析部51の動作について説明する。
 センシング情報解析部51の動作は、基本的には第1の実施の形態における場合と同様であり、センシング情報解析部51によって図14を参照して説明した周期情報生成処理が行われる。
 但し、ステップS14において、センシング情報解析部51は周期情報を生成するだけでなく、配信映像/音声復号部54から自端末で視聴中の配信映像(のフレーム)のタイムスタンプを取得し、そのタイムスタンプを周期情報に付加して送信部52に供給する。
〈遅延量算出処理の説明〉
 次に、反応映像/音声生成部55により行われる処理について、さらに具体的に説明する。特に、以下では、反応映像として第1の実施の形態における場合と同様に、オブジェクトとしてのペンライトが動く映像が生成される例について説明する。
 そのような場合、図19を参照して説明したコンテンツ再生処理のステップS44では、反応映像を生成する処理として、遅延量算出部181による遅延量算出処理と、反応フレーム生成部122による反応フレーム生成処理とが行われる。
 まず、図39のフローチャートを参照して、遅延量算出部181による遅延量算出処理について説明する。
 ステップS171において遅延量算出部181は、受信部53から必要な他者の周期情報を取得する。この場合、取得される周期情報にはタイムスタンプが付加されている。
 ステップS172において遅延量算出部181は、配信映像/音声復号部54から、配信映像の現時点の再生時刻(例えばタイムスタンプ)を自端末の基準時刻として取得する。
 なお、ここでは観客端末11における場合について説明しているため、配信映像の再生時刻が基準時刻として取得されるが、例えば演者端末12においては、現在時刻(システム時刻)が自端末の基準時刻として取得される。
 ステップS173において遅延量算出部181は、取得した周期情報と基準時刻とから、自端末から見た周期情報の遅延量Δtdelayを算出する。
 具体的には、例えば遅延量算出部181は、次式(8)により、基準時刻と、周期情報に付加されているタイムスタンプとの差分を計算することで遅延量Δtdelayを求める。
Figure JPOXMLDOC01-appb-M000008
 遅延量算出部181は、このようにして求めた遅延量Δtdelayを示す遅延情報と、周期情報とを対応付けて(紐づけて)反応フレーム生成部122および反応音声生成部123に供給する。
 ステップS174において遅延量算出部181は、まだ処理すべき周期情報があるか否か、すなわち処理する周期情報が残っているか否かを判定する。ステップS174では、全ての観客端末11の周期情報について遅延量を求める処理が行われた場合、処理すべき周期情報がないと判定される。
 ステップS174において、まだ処理すべき周期情報があると判定された場合、処理はステップS171に戻り、上述した処理が繰り返し行われる。すなわち、遅延量算出部181は、まだ処理していない新たな周期情報を受信部53から取得し、取得した周期情報について遅延情報を生成する。
 これに対して、全ての周期情報について処理を行った場合、すなわちステップS174において、処理すべき周期情報がないと判定された場合、遅延量算出処理は終了する。
 以上のようにして遅延量算出部181は、全ての観客端末11について、それらの観客端末11で生成された周期情報の遅延量を示す遅延情報を生成する。
 これにより、各周期情報について対応する遅延情報を得ることができ、後段において遅延量が補正されたずれのない反応映像および反応音声を得ることができるようになる。すなわち、より違和感の少ない反応映像/音声を得ることができる。
(反応フレーム生成部の動作)
 次に、第2の実施の形態における反応フレーム生成部122の動作について説明する。すなわち、遅延量算出部181によって遅延量算出処理が行われた後に実行される、反応フレーム生成部122による反応フレーム生成処理について説明する。
 反応フレーム生成部122では、基本的には図32を参照して説明した反応フレーム生成処理と同じ処理が行われるが、ステップS105の処理のみ第1の実施の形態における場合と異なる処理が行われる。
 ステップS105においては、オブジェクトの動きの向きを示す角度αが算出されるが、第1の実施の形態における場合と、第2の実施の形態における場合とでの角度αの算出方法の差異を図40に示す。
 なお、図40において、横軸は時間(時刻)を示しており、図中、上側に凸の矢印は周期情報の更新のタイミング、つまり左右に動くペンライトの動く向きの切り替わりのタイミングを示している。また、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさ、つまりペンライトの向き(角度)を示している。
 図中、左側には、第1の実施の形態において説明した、現在時刻tにおけるオブジェクト(ペンライト)の向きを示す角度αの算出方法が示されている。
 すなわち、この算出方法では、時刻tにおいて周期情報が最後に受信されてからの経過時間(t-t0)だけが考慮されている。そのため、時刻tで最後に受信した周期情報の角度情報により示される角度αに、経過時間(t-t0)で変化する角度ω(t-t0)が加算されて角度αが求められている。
 具体的には、以下の式(9)により角度αが求められる。なお、式(9)は上述した式(3)と同様の式である。
Figure JPOXMLDOC01-appb-M000009
 これに対して、第2の実施の形態では、図中、右側に示すようにしてオブジェクト(ペンライト)の向きを示す角度αが算出される。
 具体的には、反応フレーム生成部122は、時刻tで他の観客端末11から受信した周期情報そのものにある遅延量Δtdelayを補正するために、さらに遅延量Δtdelayの分の時間だけ経過した時刻(t+Δtdelay)におけるペンライトの角度を角度αとして求める。すなわち、式(9)において、(t-t0)が(t-t0+Δtdelay)に置き換えられる。
 したがって、角速度がωで、最後に周期情報を受信した時刻がtで、その時刻tにおける周期情報を構成する角度情報により示される角度がαであり、時刻tにおける周期情報の遅延量がΔtdelayである場合、角度αは次式(10)により求まる。
Figure JPOXMLDOC01-appb-M000010
 このようにして求まる角度αは、遅延量Δtdelayを考慮しなければ、現在時刻tよりも遅延量Δtdelayだけ先の時刻(t+Δtdelay)における、オブジェクト(ペンライト)の向きを示す角度の予測値である。
 しかし、実際には角度αは、周期情報を受信した時刻tよりも遅延量Δtdelayだけ前の時刻(t0-Δtdelay)におけるオブジェクトの向きを示す角度である。そのため、式(10)により求まる角度αは、実際には現時刻tにおけるオブジェクトの向きを示す角度の予測値となっている。換言すれば、式(10)の計算により、遅延量Δtdelayが補正された、より正確な角度αを得ることができる。
 なお、式(10)における2項目における「t-t0+Δtdelay」(以下、Δtpredとも記す)が半周期Tよりも大きくなってしまうこともある。
 しかし、そのような場合には、仮定している周期性から式(10)の2項目「ω(t-t0+Δtdelay)」を以下の式(11)に示すように置き換えればよい。なお、式(11)においてmodは、剰余演算を示している。
Figure JPOXMLDOC01-appb-M000011
 また、第2の実施の形態では、第1の実施の形態のような周期情報の選択は行われないため、周期情報とオブジェクトの対応関係を示す対応テーブルは、オブジェクトID=周期情報IDのように、オブジェクトIDと周期情報IDとが全て1対1に対応するものとなる。
 すなわち、複数のオブジェクトのオブジェクト画像が同じ周期情報に基づいて生成されることはない。したがって、第2の実施の形態では、反応フレーム生成処理において、算出された角度αにランダム値を加算するステップS106の処理は実施されない。
 また、以上においては反応映像/音声生成部55において行われる処理について説明したが、演者端末12の反応映像/音声生成部92においても反応映像/音声生成部55における場合と同様の処理が行われる。
〈第2の実施の形態の他の例1〉
〈反応映像と反応音声を生成する例〉
 なお、以上においては、反応映像のみを生成する例について説明したが、反応映像と反応音声の両方が生成されるようにしてもよい。
 以下では、反応映像と同時に反応音声も生成される場合について説明する。特に、以下では、一例として、反応映像は観客に対応するオブジェクトが拍手をする映像であり、反応音声は多人数の拍手音である場合について説明する。
 このような場合においても、リモートライブシステムの構成は図7に示した構成とされ、反応映像/音声生成部55は図38に示した構成とされる。
 また、反応映像の生成は、上述の第2の実施の形態における場合と同様にして実現することができるため、ここではその説明は省略し、第2の実施の形態との差異となる反応音声生成部における動作についてのみ説明する。
 なお、演者端末12の反応映像/音声生成部92における、反応音声生成部123に対応する反応音声生成部153の動作も反応音声生成部123における場合と同様であるため、その図示および説明については省略する。
 反応音声生成部123は、例えば図41に示すようにして反応音声を生成する。この場合、周期情報は、例えば図33を参照して説明したものとされる。
 なお、図41において横軸は時間(時刻)を示しており、図中、上に凸の矢印は周期情報が受信されたタイミング、換言すれば、オブジェクトの反応を示す音である拍手の再生音の再生が開始されるタイミングを表している。
 矢印Q101に示す部分には周期情報の遅延がない場合、すなわち理想的な場合における再生音(拍手音)の再生開始タイミングが示されている。
 ところが、実際に取得した周期情報は上述の遅延量Δtdelayの時間だけ遅延しているため、矢印Q102に示すように再生音(拍手音)の再生開始タイミングには、理想的な再生開始タイミングに対してずれが生じてしまう。ここでは期間T31の長さは、周期情報の遅延量、すなわち上述の遅延量Δtdelayを表している。
 しかし、観客の反応である拍手は略周期的な反応(動き)であるから、取得した周期情報に基づく再生音(拍手音)の再生開始タイミングに対して、もう1周期先に拍手のタイミングが来ると予想できる。
 そこで、反応音声生成部123は、再生音(拍手音)の再生開始タイミングを、周期情報(経過時間情報)により示される1周期の時間から、周期情報の遅延量Δtdelayを減算して得られる補正量T32の時間(周期-遅延量)だけ遅らせる。
 そのような場合、反応音声生成部123は、基本的には図35を参照して説明した反応音声生成処理と同様の処理を行う。
 但し、ステップS143において反応音声生成部123は、周期情報と拍手音の音声データに基づいて1回分の拍手音を再生音として生成するときに、その拍手音の再生が開始されるタイミングを(周期-遅延量)の時間の分だけ遅らせるようにする。
 換言すれば、周期情報により示される周期と、周期情報の遅延量との差分に基づいて、再生音の再生開始タイミングが補正される。
 このようにすることで、矢印Q103に示すように、拍手音の再生開始タイミングが、ちょうど周期情報の遅延がない場合の理想的な再生開始タイミングから1周期分だけ遅れたタイミングとなる。オブジェクトの反応としての拍手は周期的なものであるため、拍手音の再生開始タイミングを理想的な場合から1周期分だけずらすことで、周期情報の遅延量により生じる拍手のタイミングのずれが補正されることになる。
 したがって、このようにして周期情報の遅延を補正することで、全ての観客端末11の周期情報を用いた場合であっても、複数のオブジェクトの音声(反応)が揃った違和感の少ない反応音声を提示することができる。
 また、この実施の形態で説明した方法によれば、第1の実施の形態の他の例1における場合のように、アンコール開始を検知しなくても、「拍手が少しずつ手拍子に変わっていくような表現」を実現することが可能となる。
〈第3の実施の形態〉
〈反応映像/音声生成部の構成例〉
 ところで、反応映像/音声生成部55や反応映像/音声生成部92において、第1の実施の形態のように周期情報の選択を行い、かつ第2の実施の形態のように遅延情報を生成して遅延量に応じた補正を行うようにしてもよい。
 特に、そのような場合に周期情報の選択を行う手法(以下、周期情報選択手法とも称する)と、遅延量に応じた補正を行う手法(以下、遅延量補正手法とも称する)とを、自端末の演算リソース等に応じて使い分けるようにしてもよい。
 例えば自端末、すなわち観客端末11や演者端末12がPCやゲーム機等であって、処理に余裕があるときには、比較的表現の幅が広い遅延量補正手法を中心に用いるようにすることが考えられる。
 また、例えば自端末、すなわち観客端末11や演者端末12がスマートフォンやタブレット等、比較的リソースの不足している機器である場合には、比較的演算負荷の低い周期情報選択手法を中心に用いるようにすることが考えられる。
 このようにすることで、遅延量補正手法のような方法でしか実現できない反応映像/音声を提示しつつ、自端末における演算負荷を低く抑えることができる。
 周期情報選択手法と遅延量補正手法を組み合わせて用いる場合においても、リモートライブシステムの構成は図7に示した構成とされるため、ここでは差異の生じる反応映像/音声生成部55と反応映像/音声生成部92の構成について説明する。
 特に、反応映像/音声生成部92の構成と動作は、基本的には反応映像/音声生成部55と同様であるため、以下では反応映像/音声生成部55について説明を行い、反応映像/音声生成部92については、その説明は省略する。
 例えば、反応映像/音声生成部55の構成は、周期情報選択手法と遅延量補正手法の組み合わせ方によっていくつかの構成が考えられるが、ここでは一例として、周期情報選択部121と遅延量算出部181を縦続接続させる例について説明する。
 そのような場合、反応映像/音声生成部55は図42に示すように構成される。なお、図42において図21または図38における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図42に示す反応映像/音声生成部55は、周期情報選択部121、遅延量算出部181、反応フレーム生成部122、および反応音声生成部123を有している。
 この例では、周期情報選択部121には、受信部53からN個の観客端末11から受信された周期情報1乃至周期情報Nが供給される。これらの周期情報1乃至周期情報Nには、タイムスタンプ1乃至タイムスタンプNが付加されている。
 また、周期情報選択部121には、センシング情報解析部51からの自端末周期情報や、配信映像/音声復号部54からの配信映像/音声が補助情報として供給される。なお、演者端末12では、生映像/音声が補助情報として供給される。
 周期情報選択部121は、第1の実施の形態における場合と同様にして、補助情報に基づいて、供給されたN個の他者周期情報のなかから、N以下のM個(M≦N)の周期情報を選択周期情報として選択する。
 周期情報選択部121は、選択周期情報として選択したM個の周期情報と、それらの周期情報に付加されているタイムスタンプとを遅延量算出部181に供給する。
 この場合、例えば周期情報選択部121は、現時点における自端末(観客端末11)の演算リソース等に基づいて、選択する周期情報の個数Mを決定する。特に、自端末の演算リソースが所定値以上ある場合など、遅延量補正手法の割り合いを増やしたいとき、つまり遅延量補正手法を中心に用いたいときには、選択される周期情報の個数Mを増やすようにすればよい。例えば、選択される周期情報の個数MをM≒Nとすれば、受信された周期情報が殆どパススルーされて遅延量算出部181へと供給されるような動作となる。
 遅延量算出部181には、第2の実施の形態における場合と同様に、配信映像/音声復号部54から自端末の基準時刻として、観客端末11自身(自端末)において再生中の配信映像の再生時刻が供給される。なお、演者端末12では、システム時刻が自端末の基準時刻として供給される。
 遅延量算出部181は、第2の実施の形態における場合と同様にして、周期情報選択部121から供給されたM個の周期情報ごとに、供給された周期情報に付加されているタイムスタンプと、供給された自端末の基準時刻とに基づいて遅延情報を生成する。
 遅延量算出部181は、選択周期情報として選択されたM個の周期情報と、それらの周期情報に対応するM個の遅延情報とを反応フレーム生成部122および反応音声生成部123に供給する。
 反応フレーム生成部122は、遅延量算出部181から供給されたM個の周期情報と遅延情報に基づいて、第2の実施の形態における場合と同様にして反応映像を生成する。この場合、M個のオブジェクト画像が重畳された反応映像が生成されるようにしてもよいし、1つの周期情報から複数のオブジェクト画像を生成することで、N個のオブジェクト画像が重畳された反応映像が生成されるようにしてもよい。
 また、反応音声生成部123も遅延量算出部181から供給されたM個の周期情報と遅延情報に基づいて、第2の実施の形態の他の例1における場合と同様にして反応音声を生成する。この場合、M個のオブジェクトの再生音からなる反応音声が生成されるようにしてもよいし、1つの周期情報から複数のオブジェクトの再生音を生成することで、N個のオブジェクトの再生音からなる反応音声が生成されるようにしてもよい。
 なお、反応映像や反応音声の生成にあたり、1つの周期情報から複数のオブジェクト画像やオブジェクトの再生音を生成するときには、第1の実施の形態や第1の実施の形態の他の例1における場合と同様に、オブジェクトの角度や、拍手音等の再生音の再生タイミングに微小なずれが付加されてもよい。
 具体的には第3の実施の形態では、反応フレーム生成処理において、1個の周期情報から複数のオブジェクト画像を生成する必要があるときには、適宜算出された角度αにランダム値を加算するステップS106の処理が実施される。
 同様に、反応音声生成処理において、1個の周期情報から複数の再生音を生成する必要があるときには、ステップS143の処理を実施する際に再生音における拍手音の再生タイミングが必ず一定量以下の時間だけずらされるようにされる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図43は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、
 複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する生成部と
 を備える情報処理装置。
(2)
 センサにより取得された情報に基づいて、前記自端末に対応するユーザの反応を示す前記反応情報を生成する反応情報生成部と、
 前記ユーザの反応を示す前記反応情報を送信する送信部と
 をさらに備える(1)に記載の情報処理装置。
(3)
 前記センサは、カメラ、マイクロフォン、加速度センサ、ジャイロセンサ、および地磁気センサの少なくとも何れか1つを含む
 (2)に記載の情報処理装置。
(4)
 前記反応情報は、反応の周期に基づく周期情報である
 (1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
 前記環境情報は、コンテンツの映像、コンテンツの音声、および前記自端末に対応するユーザの反応を示す前記反応情報の少なくとも何れか1つである
 (1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
 前記生成部は、前記受信部により受信された前記複数の前記反応情報のなかから選択した所定数の前記反応情報に基づいて、前記提示映像または前記提示音声を生成する
 (1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
 前記生成部は、コンテンツの音声から得られるテンポ情報またはビート情報に基づいて、前記所定数の前記反応情報を選択する
 (6)に記載の情報処理装置。
(8)
 前記生成部は、前記自端末に対応するユーザの反応を示す前記反応情報に基づいて、前記所定数の前記反応情報を選択する
 (6)に記載の情報処理装置。
(9)
 前記生成部は、前記他のユーザの反応を示す前記反応情報の履歴の解析結果に基づいて、前記所定数の前記反応情報を選択する
 (6)に記載の情報処理装置。
(10)
 前記生成部は、前記他のユーザの反応を示す前記反応情報のメタ情報に基づいて、前記所定数の前記反応情報を選択する
 (6)に記載の情報処理装置。
(11)
 前記生成部は、選択する前記反応情報、および選択する前記反応情報の数を動的に変化させる
 (6)乃至(10)の何れか一項に記載の情報処理装置。
(12)
 前記生成部は、前記自端末における基準時刻に対する、受信した前記他のユーザの反応を示す前記反応情報の遅延量を算出し、前記他のユーザの反応を示す前記反応情報および前記遅延量に基づいて、前記提示映像または前記提示音声を生成する
 (1)乃至(11)の何れか一項に記載の情報処理装置。
(13)
 前記生成部は、前記他のユーザの反応を示す前記反応情報に付加された、前記反応情報生成時におけるコンテンツのタイムスタンプに基づいて前記遅延量を算出する
 (12)に記載の情報処理装置。
(14)
 前記生成部は、前記他のユーザの反応を示す前記反応情報に応じた動きをするオブジェクトの映像を前記提示映像として生成する
 (1)乃至(13)の何れか一項に記載の情報処理装置。
(15)
 前記生成部により生成された前記提示映像を、前記受信部により受信されたコンテンツの映像に重畳し、最終的な前記提示映像とする映像重畳部をさらに備える
 (1)乃至(14)の何れか一項に記載の情報処理装置。
(16)
 前記生成部は、前記他のユーザの反応を示す前記反応情報に応じたタイミングで特定音が再生される音声を前記提示音声として生成する
 (1)乃至(15)の何れか一項に記載の情報処理装置。
(17)
 前記生成部により生成された前記提示音声を、前記受信部により受信されたコンテンツの音声に合成し、最終的な前記提示音声とする音声重畳部をさらに備える
 (1)乃至(16)の何れか一項に記載の情報処理装置。
(18)
 前記提示映像または前記提示音声を提示させる出力部をさらに備える
 (1)乃至(17)の何れか一項に記載の情報処理装置。
(19)
 前記生成部は、前記自端末の演算リソースに基づいて、選択する前記反応情報の数を決定する
 (11)に記載の情報処理装置。
(20)
 情報処理装置が、
 自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
 複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
 情報処理方法。
(21)
 自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
 複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
 処理をコンピュータに実行させるプログラム。
 11A乃至11C,11 観客端末, 12 演者端末, 14 ネットワーク, 41 センシングデバイス, 51 センシング情報解析部, 52 送信部, 53 受信部, 55 反応映像/音声生成部, 56 映像/音声重畳部, 57 映像/音声出力部, 91 受信部, 92 反応映像/音声生成部, 121 周期情報選択部, 122 反応フレーム生成部, 123 反応音声生成部, 181 遅延量算出部

Claims (20)

  1.  自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、
     複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する生成部と
     を備える情報処理装置。
  2.  センサにより取得された情報に基づいて、前記自端末に対応するユーザの反応を示す前記反応情報を生成する反応情報生成部と、
     前記ユーザの反応を示す前記反応情報を送信する送信部と
     をさらに備える請求項1に記載の情報処理装置。
  3.  前記センサは、カメラ、マイクロフォン、加速度センサ、ジャイロセンサ、および地磁気センサの少なくとも何れか1つを含む
     請求項2に記載の情報処理装置。
  4.  前記反応情報は、反応の周期に基づく周期情報である
     請求項1に記載の情報処理装置。
  5.  前記環境情報は、コンテンツの映像、コンテンツの音声、および前記自端末に対応するユーザの反応を示す前記反応情報の少なくとも何れか1つである
     請求項1に記載の情報処理装置。
  6.  前記生成部は、前記受信部により受信された前記複数の前記反応情報のなかから選択した所定数の前記反応情報に基づいて、前記提示映像または前記提示音声を生成する
     請求項1に記載の情報処理装置。
  7.  前記生成部は、コンテンツの音声から得られるテンポ情報またはビート情報に基づいて、前記所定数の前記反応情報を選択する
     請求項6に記載の情報処理装置。
  8.  前記生成部は、前記自端末に対応するユーザの反応を示す前記反応情報に基づいて、前記所定数の前記反応情報を選択する
     請求項6に記載の情報処理装置。
  9.  前記生成部は、前記他のユーザの反応を示す前記反応情報の履歴の解析結果に基づいて、前記所定数の前記反応情報を選択する
     請求項6に記載の情報処理装置。
  10.  前記生成部は、前記他のユーザの反応を示す前記反応情報のメタ情報に基づいて、前記所定数の前記反応情報を選択する
     請求項6に記載の情報処理装置。
  11.  前記生成部は、選択する前記反応情報、および選択する前記反応情報の数を動的に変化させる
     請求項6に記載の情報処理装置。
  12.  前記生成部は、前記自端末における基準時刻に対する、受信した前記他のユーザの反応を示す前記反応情報の遅延量を算出し、前記他のユーザの反応を示す前記反応情報および前記遅延量に基づいて、前記提示映像または前記提示音声を生成する
     請求項1に記載の情報処理装置。
  13.  前記生成部は、前記他のユーザの反応を示す前記反応情報に付加された、前記反応情報生成時におけるコンテンツのタイムスタンプに基づいて前記遅延量を算出する
     請求項12に記載の情報処理装置。
  14.  前記生成部は、前記他のユーザの反応を示す前記反応情報に応じた動きをするオブジェクトの映像を前記提示映像として生成する
     請求項1に記載の情報処理装置。
  15.  前記生成部により生成された前記提示映像を、前記受信部により受信されたコンテンツの映像に重畳し、最終的な前記提示映像とする映像重畳部をさらに備える
     請求項1に記載の情報処理装置。
  16.  前記生成部は、前記他のユーザの反応を示す前記反応情報に応じたタイミングで特定音が再生される音声を前記提示音声として生成する
     請求項1に記載の情報処理装置。
  17.  前記生成部により生成された前記提示音声を、前記受信部により受信されたコンテンツの音声に合成し、最終的な前記提示音声とする音声重畳部をさらに備える
     請求項1に記載の情報処理装置。
  18.  前記提示映像または前記提示音声を提示させる出力部をさらに備える
     請求項1に記載の情報処理装置。
  19.  情報処理装置が、
     自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
     複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
     情報処理方法。
  20.  自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
     複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
     処理をコンピュータに実行させるプログラム。
PCT/JP2022/010483 2021-09-16 2022-03-10 情報処理装置および方法、並びにプログラム WO2023042436A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021150880 2021-09-16
JP2021-150880 2021-09-16

Publications (1)

Publication Number Publication Date
WO2023042436A1 true WO2023042436A1 (ja) 2023-03-23

Family

ID=85602642

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/010483 WO2023042436A1 (ja) 2021-09-16 2022-03-10 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023042436A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015109505A (ja) * 2013-12-03 2015-06-11 三星電子株式会社Samsung Electronics Co.,Ltd. 再生制御装置、再生装置、再生制御方法及びプログラム
JP2017151978A (ja) * 2016-02-23 2017-08-31 株式会社ユークス イベント演出システム、その動作方法、およびそのプログラム
JP2019050576A (ja) * 2017-09-04 2019-03-28 株式会社コロプラ ヘッドマウントデバイスによって仮想空間を提供するためのプログラム、方法、および当該プログラムを実行するための情報処理装置
JP2020009027A (ja) * 2018-07-04 2020-01-16 学校法人 芝浦工業大学 ライブ演出システム、およびライブ演出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015109505A (ja) * 2013-12-03 2015-06-11 三星電子株式会社Samsung Electronics Co.,Ltd. 再生制御装置、再生装置、再生制御方法及びプログラム
JP2017151978A (ja) * 2016-02-23 2017-08-31 株式会社ユークス イベント演出システム、その動作方法、およびそのプログラム
JP2019050576A (ja) * 2017-09-04 2019-03-28 株式会社コロプラ ヘッドマウントデバイスによって仮想空間を提供するためのプログラム、方法、および当該プログラムを実行するための情報処理装置
JP2020009027A (ja) * 2018-07-04 2020-01-16 学校法人 芝浦工業大学 ライブ演出システム、およびライブ演出方法

Similar Documents

Publication Publication Date Title
CN106648083B (zh) 增强演奏场景合成控制方法及装置
JP6923245B2 (ja) 観衆ベースのハプティック
JP4716083B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
US20230156246A1 (en) Dynamic viewpoints of live event
US20110214141A1 (en) Content playing device
WO2016088566A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2007027846A (ja) 動画再生システム及び動画再生方法
CN111315453B (zh) 信息处理设备、信息处理方法及程序
JP2016119071A (ja) マルチメディアデータで使用する触覚データを記録するシステムおよび方法
US20220222881A1 (en) Video display device and display control method for same
US10289193B2 (en) Use of virtual-reality systems to provide an immersive on-demand content experience
JP7465019B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2023101606A (ja) コンピュータプログラム、方法及びサーバ装置
US20230044961A1 (en) Automated haptics generation and distribution
JP2006041886A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP6281503B2 (ja) 通信システム、配信装置及びプログラム
JP6688378B1 (ja) コンテンツ配信システム、配信装置、受信装置及びプログラム
JPWO2017002642A1 (ja) 情報機器及び表示処理方法
WO2023042436A1 (ja) 情報処理装置および方法、並びにプログラム
JP7442979B2 (ja) カラオケシステム
CN116962747A (zh) 基于网络直播的实时合唱同步方法、装置及网络直播系统
EP4163876A1 (en) Information processing device, information processing method, and program
JP6665273B1 (ja) コンテンツ配信システム、受信装置及びプログラム
JP2017032725A (ja) カラオケシステム
WO2023120244A1 (ja) 伝送装置、伝送方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22869588

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE