WO2022018828A1 - 応援支援方法、応援支援装置、およびプログラム - Google Patents
応援支援方法、応援支援装置、およびプログラム Download PDFInfo
- Publication number
- WO2022018828A1 WO2022018828A1 PCT/JP2020/028303 JP2020028303W WO2022018828A1 WO 2022018828 A1 WO2022018828 A1 WO 2022018828A1 JP 2020028303 W JP2020028303 W JP 2020028303W WO 2022018828 A1 WO2022018828 A1 WO 2022018828A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- support
- cheering
- video
- sound
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000002776 aggregation Effects 0.000 claims description 29
- 238000004220 aggregation Methods 0.000 claims description 29
- 239000000463 material Substances 0.000 abstract description 27
- 238000006243 chemical reaction Methods 0.000 description 44
- 238000012545 processing Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 8
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/239—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
Definitions
- the present invention relates to a technology in which viewers remotely support events such as events distributed to a large number of bases.
- FIG. 1 is a diagram showing an outline of a distribution system disclosed in Non-Patent Document 1.
- This distribution system includes a video distribution device 9 that generates a distribution video based on an original video of an event to be distributed and distributes it on the Internet.
- Users 10-n 1, ..., N, N are integers of 1 or more
- the user 10-n inputs a character string representing an impression, a comment, or the like from the input unit 81 of the user terminal 8-n while viewing the distributed video in real time.
- the transmission unit 82 of the user terminal 8-n transmits the input character string to the video distribution device 9.
- the character string receiving unit 91 of the video distribution device 9 receives the character string from each user terminal 8n.
- the character string addition unit 92 of the video distribution device 9 generates the distribution video by adding the received character string to the original video.
- the generated distribution video is distributed to each user terminal 8-n.
- Non-Patent Document 1 the user has to input impressions, comments, etc. as a character string, which is complicated. Further, for example, in the case of a sports event, it is difficult for the player to play while visually recognizing the character string transmitted from the user.
- An object of the present invention is that, in view of the above technical problems, the user can convey the reaction to the distributor without inputting a character string, and the parties to the event hinder the progress of the user's reaction. It is to realize a technology that can be felt naturally so as not to become.
- the support support method of one aspect of the present invention includes support consisting of an acoustic signal and / or a video signal based on a sound emitted by a viewer in a plurality of spaces different from the space of the distribution source. It is a support support method that reproduces the acquired support in the space of the distribution source, and has an acquisition step for acquiring support and a reproduction step for reproducing the acquired support, and the acquired support is among a plurality of sound types. , The cheering corresponding to the sound type with a large number of viewers is emphasized, and the cheering corresponding to the sound type with a small number of viewers is not emphasized.
- the support consisting of voice and / or video corresponding to the type of sound emitted by the user is emphasized based on the number of users who have emitted the type of sound, and is reproduced by the distribution source. Can convey the reaction to the distributor without entering a string, and the parties to the event can naturally perceive the user's reaction so that it does not interfere with the progress.
- FIG. 1 is a diagram for explaining the prior art.
- FIG. 2 is a diagram illustrating the functional configuration of the support support system.
- FIG. 3 is a diagram illustrating a functional configuration of a user terminal.
- FIG. 4 is a diagram illustrating the functional configuration of the support support device.
- FIG. 5 is a diagram illustrating the processing procedure of the support support method.
- FIG. 6 is a diagram illustrating the functional configuration of the tabulation unit.
- FIG. 7 is a diagram illustrating the functional configurations of the audio acquisition unit and the audio material storage unit.
- FIG. 8 is a diagram illustrating the functional configurations of the video acquisition unit and the video material storage unit.
- FIG. 9 is a diagram for explaining the meter display.
- FIG. 10 is a diagram illustrating a functional configuration of a computer.
- a support composed of an acoustic signal and / or a video signal is generated based on a sound emitted by a user who is watching an event or the like distributed to a large number of bases, and the support is generated from the base of the distribution source.
- the support support system of the embodiment includes N user spaces 100-1, ..., 100-N, and one distribution source space 200.
- the distribution source space is a space where sports are performed (for example, a stadium)
- the user space is a space for users to watch the event (for example, at home).
- Each space may be dispersed in a plurality of geographically separated buildings, or may be a plurality of rooms in one building.
- a user 10-n and a user terminal 1-n exist in each user space 100-n.
- the user 10-n watches the video delivered using the user terminal 1-n.
- a microphone MN that collects sounds emitted by the user 10-n is connected to the user terminal 1-n.
- the microphone Mn may be connected from the outside of the user terminal 1-n by various wired or wireless interfaces, or may be built in the housing of the user terminal 1-n.
- the cheering support device 2 includes a speaker S that reproduces cheering that is an acoustic signal (hereinafter, also referred to as “cheering voice”), and a display D that reproduces cheering that is a video signal (hereinafter, also referred to as “cheering video”). Is connected.
- the speaker S and the display D may be connected from the outside of the support support device 2 by various wired or wireless interfaces, may be built in the housing of the support support device 2, or may be built in the housing of the support support device 2. It may be formed integrally with the housing.
- the user terminal 1-n includes a sound type detection unit 11 and a transmission unit 14.
- the sound type detection unit 11 includes a feature amount conversion unit 111 and an identification processing unit 112.
- the user terminal 1-n may further include a voice recognition unit 12 and a volume calculation unit 13.
- the user terminal 1-n may include only one of the sound type detection unit 11, the voice recognition unit 12, and the volume calculation unit 13, or may include a combination of any two of them. However, all three may be provided.
- the support support device 2 includes a totaling unit 21, an audio acquisition unit 22, an audio reproduction unit 23, an audio material storage unit 24, a video acquisition unit 25, a video reproduction unit 26, and a video material storage unit 27. Be prepared.
- the video acquisition unit 25, the video reproduction unit 26, and the video material storage unit 27 may not be provided.
- the audio acquisition unit 22, the audio reproduction unit 23, and the audio material storage unit 24 may not be provided.
- a special program is read into a publicly known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a special device configured in.
- the user terminal 1-n and the support support device 2 execute each process under the control of the central processing unit, for example.
- the data input to the user terminal 1-n and the support support device 2 and the data obtained by each process are stored in, for example, the main storage device, and the data stored in the main storage device is centrally processed as needed. It is read out to the device and used for other processing.
- At least a part of the user terminal 1-n and the support support device 2 may be configured by hardware such as an integrated circuit.
- Each storage unit included in the support support device 2 is, for example, a main storage device such as RAM (RandomAccessMemory), an auxiliary storage device composed of a hard disk, an optical disk, or a semiconductor memory element such as a flash memory (FlashMemory), or an auxiliary storage device. It can be configured with middleware such as relational databases and key-value stores.
- RAM RandomAccessMemory
- auxiliary storage device composed of a hard disk, an optical disk, or a semiconductor memory element such as a flash memory (FlashMemory), or an auxiliary storage device.
- middleware such as relational databases and key-value stores.
- the user terminal 1-n is an information processing device having a voice signal processing function and a data communication function such as a mobile terminal such as a smartphone or a tablet, or a desktop type or laptop type personal computer.
- the support support device 2 is an information processing device having a data communication function and a data processing function such as a desktop type or rack mount type server computer.
- the support support method of the embodiment is realized.
- the support support method executed by the support support system of the embodiment will be described.
- the microphone Mn connected to the user terminal 1-n collects the sound emitted by the user 10-n (hereinafter, also referred to as "user reaction").
- the user's reaction includes, for example, the sound of applause, cheers, and cheering voices when the video to be delivered is a sports game. Therefore, the acoustic signal collected by the microphone Mn may be an audio signal including the voice of the user, or may be a sound signal not including the voice of the user.
- the acoustic signal collected by the microphone Mn is input to the sound type detection unit 11 of the user terminal 1-n.
- the user terminal 1-n includes the voice recognition unit 12 and / or the volume calculation unit 13
- the acoustic signal collected by the microphone Mn is also input to the voice recognition unit 12 and / or the volume calculation unit 13.
- step S11 the user terminal 1-n generates reaction information representing the user's reaction based on the acoustic signal collected by the microphone MN.
- the content of the reaction information differs depending on which of the sound type detection unit 11, the voice recognition unit 12, and the volume calculation unit 13 is provided in the user terminal 1-n.
- the reaction information includes the result of identifying which of a plurality of predetermined sound types the sound emitted by the user is. That is, the sound type detection unit 11 identifies the input acoustic signal into one of a plurality of predetermined sound types, and outputs the identification result as reaction information.
- the predetermined sound types are, for example, applause, cheers, and cheering.
- the feature amount conversion unit 111 converts the input acoustic signal into an acoustic feature amount such as a frequency spectrum or cepstrum.
- the identification processing unit 112 inputs the acoustic feature amount to a classifier such as a neural network learned in advance, and identifies which of the predetermined sound types the acoustic feature amount corresponds to.
- the reaction information includes a character string represented by the voice spoken by the user. That is, the voice recognition unit 12 converts the input acoustic signal into a character string by recognizing the voice, and outputs the character string as reaction information.
- the reaction information includes the volume of the sound emitted by the user. That is, the volume calculation unit 13 calculates the volume of the input acoustic signal, and outputs the information representing the volume as reaction information.
- step S14 the transmission unit 14 of the user terminal 1-n transmits the reaction information output by at least one of the sound type detection unit 11, the voice recognition unit 12, and the volume calculation unit 13 to the support support device 2.
- the support support device 2 inputs the reaction information received from each user terminal 1-n to the aggregation unit 21.
- the aggregation unit 21 of the support support device 2 aggregates the reaction information received from each user terminal 1-n and outputs the aggregation result.
- the totaling unit 21 includes, for example, a reception data buffer 211 and a sound type totaling unit 212.
- the aggregation unit 21 may further include a character string aggregation unit 213 and / or an average volume calculation unit 214. Whether or not the totaling unit 21 includes the character string totaling unit 213 and the average volume calculation unit 214 is determined by the content of the reaction information received from the user terminal 1-n.
- the aggregation unit 21 includes the character string aggregation unit 213. Further, when the reaction information includes the volume (that is, when the user terminal 1-n includes the volume calculation unit 13), the aggregation unit 21 includes the average volume calculation unit 214.
- the reception data buffer 211 stores the reaction information received from each user terminal 1-n in the FIFO buffer for a certain period of time.
- the accumulation time length is set in advance, and is, for example, about 1 second to several tens of seconds.
- the sound type totaling unit 212 counts the reaction information (that is, the identification result of the sound type) stored in the reception data buffer 211 for each sound type, and the number of receptions for each sound type (that is, the sound corresponding to the sound type).
- the total number of sound types representing the number of viewers who issued the above) is output.
- the character string totaling unit 213 counts the reaction information (that is, the voice recognition result) stored in the reception data buffer 211 for each character string, and the number of receptions for each character string (that is, the viewer who spoke the character string).
- the character string aggregation result representing the number) is output.
- the average volume calculation unit 214 outputs an average volume calculation result representing the average of the volumes within a certain period of time from the reaction information (that is, the volume) stored in the reception data buffer 211.
- the volume aggregation result may be an average value for all viewers, or may be an average value for each sound type or each character string.
- step S22 the voice acquisition unit 22 of the support support device 2 acquires and outputs the support voice to be reproduced in the distribution source space based on the total result output by the total unit 21.
- the voice acquisition unit 22 acquires a cheering voice by using the voice material prepared in advance and stored in the voice material storage unit 24.
- the audio material storage unit 24 stores K types of audio materials 241-1, ..., 241-K (K is a number of sound types and is an integer of 2 or more) in advance.
- the audio material storage unit 24 further includes a selection unit 242.
- the selection unit 242 changes the audio material 241-3 of the cheering sound to the designated acoustic signal according to the operation signal automatically or manually input from the outside according to the predetermined rule.
- the voice acquisition unit 22 includes a gain value setting unit 220, K gains 221-k, and an addition unit 222.
- Each gain 221-k corresponds to the audio material 241-k, respectively.
- ⁇ is a predetermined constant, for example, the reciprocal of the number of viewers.
- the gain of other sound types may be set to 0.
- the gain is obtained according to the value obtained by multiplying the number of received sounds for each sound type by the average volume (that is, the total volume of the viewers for each sound type). May be set.
- the average volume for each sound type is V k
- the addition unit 222 adds each signal obtained by multiplying the voice material 241-k by the gain 221-k and outputs the support voice.
- the voice acquisition unit 22 may further include a voice synthesis unit 223 and a gain 224.
- the voice synthesis unit 223 and the gain 224 when the user terminal 10-n includes the voice recognition unit 12 (that is, the reaction information input to the aggregation unit 21 includes the character string of the voice recognition result, and the aggregation unit 21 has characters. It is required when outputting the column aggregation result).
- the voice synthesis unit 223 extracts a predetermined number of character strings from the one with the larger number of receptions from the character string aggregation results, and voice-synthesizes the character strings.
- the gain value setting unit 220 calculates and sets the gain 224 according to the number of received character strings and the average volume thereof.
- the addition unit 222 In addition to each signal obtained by multiplying the voice material 241-k by the gain 221-k, the addition unit 222 also adds a signal obtained by multiplying the output signal of the voice synthesis unit 223 by the gain 224 and outputs the signal as a cheering voice. At this time, the maximum value of each gain may be set so that the signal after addition does not exceed the upper limit of the gain.
- step S23 the voice reproduction unit 23 of the support support device 2 reproduces the support voice output by the voice acquisition unit 22 from the speaker S connected to the support support device 2.
- step S25 the video acquisition unit 25 of the support support device 2 acquires and outputs the support video to be reproduced in the distribution source space based on the total result output by the total unit 21.
- the video acquisition unit 25 acquires a support video using the video material prepared in advance and stored in the video material storage unit 27.
- the video material storage unit 27 stores K types of video materials 271-1, ..., 271-K in advance.
- Each video material 271-k is a video signal preset corresponding to each of a plurality of sound types that identify the sound emitted by the user. For example, when the video to be delivered is a sports game, the video material 271-1 of the video where a large number of spectators are applauding, the video material 271-2 of the video cheering, and the video cheering. It suffices to prepare the video material 271-3 of. The cheering video may be changed according to the progress of the match.
- the video material storage unit 27 further includes a selection unit 272.
- the selection unit 272 changes the video material 271-3 of the video to be supported to the designated video signal according to the operation signal automatically or manually input from the outside according to a predetermined rule.
- the image acquisition unit 25 includes an image selection unit 251.
- the video selection unit 251 selects an appropriate video material 271-k based on the total result output by the total unit 21. For example, the video material corresponding to the sound type having the largest reception number N k for each sound type represented by the sound type aggregation result is selected. Also, for example, using the average volume V k for each sound type represented by the average volume calculation result, it corresponds to the sound type with the largest value V k ⁇ N k obtained by multiplying the received number N k of the sound type by the average volume V k. You may select the video material to be used.
- the video acquisition unit 25 outputs the selected video material as a support video.
- the image acquisition unit 25 may further include a meter display unit 252.
- the meter display unit 252 generates a cheering image by displaying an index calculated based on the aggregation result output by the aggregation unit 21 as a meter display and synthesizing it with a video material.
- the index based on the aggregation result is, for example, a value used when selecting a video material. For example, it may be a received number N k of sound type, the number of received N k of sound type or a value V k ⁇ N k multiplied by the average volume V k.
- An example of the meter display is shown in FIG. In the example of FIG. 9, a vertically long rectangular meter 2502 is displayed at the right end of the cheering image 2501.
- the meter 2502 expresses the value of the index by painting the upper region and the lower region separately with the lower side as 0 and the upper side as the maximum value (MAX). Note that FIG. 9 is an example of a meter display, and any display may be used as long as the index can be easily visually recognized.
- step S26 the video reproduction unit 26 of the support support device 2 reproduces the support video output by the image acquisition unit 25 from the display D connected to the support support device 2.
- the support support system of the embodiment it is possible to present audio and / or video that aggregates the reactions of a large number of viewers dispersed in different bases to the base of the distribution source. can.
- the viewer can convey the reaction to the distributor without having to perform complicated operations such as inputting a character string, and the parties to the event can experience the atmosphere such as the excitement of the viewer without being deprived of their eyesight. can.
- the video acquisition unit 25 of the embodiment acquired the support video by selecting the video material prepared in advance.
- the video acquisition unit 25 of the modification 1 dynamically generates a video based on the aggregation result or the like, and acquires a cheering video more suitable for the user's reaction.
- the video acquisition unit 25 of the modification 1 generates a motion representing the movement of a person from the cheering voice acquired by the voice acquisition unit 22, and makes a preset video material perform an operation according to the motion as a cheering video. Get as.
- a technique of generating a motion from an acoustic signal and causing a video material to operate according to the motion can be realized by using, for example, the technique disclosed in Reference 1.
- the number of users who take motion in the cheering video may be controlled based on the aggregation result output by the aggregation unit 21. For example, when half of the sound emitted by the user is the cheering sound, about half of the users appearing in the cheering video can be configured to take a motion.
- This video generation technology takes N time-series acoustic signals, which are acoustic signals related to the performance or singing of N types of musical instruments, as inputs, and is a time-series video of an agent who plays or sings the entire time-series acoustic signals.
- N is any integer greater than or equal to 1.
- deep learning is used to describe the relationship between sound and behavior in advance using a neural network, and the behavior pattern is estimated simply by inputting the sound.
- the behavior pattern of the agent corresponding to the time-series acoustic signal is estimated by inputting the time-series acoustic signal or the vector group obtained by quantizing the characteristics of the time-series acoustic signal into the neural network learned in advance.
- the neural network may be any of a fully-connected deep neural network (Full-connected Deep Neural Networks), a recurrent neural network (Recurrent Neural Networks), a convolutional neural network (Convolutional Neural Networks), and the like. That is, this video generation technique does not depend on the implementation form of the neural network.
- N time-series acoustic signals are input, and for each time interval included in each time-series acoustic signal, the performance video of the agent corresponding to the time interval of the time-series acoustic signal. Or, obtain a time-series video that is a singing video.
- the agent's time-sector video for each time-sector included in each of the N time-series acoustic signals is obtained. ..
- the action generation model consists of N learning time-series acoustic signals, which are learning acoustic signals related to the performance or singing of N types of musical instruments, and each time interval included in each of the N learning time-series acoustic signals. Obtained by pre-learning with an action label indicating the behavior of the agent playing or singing. Next, for each of the N time-series acoustic signals, by combining one or more time-sector images obtained for the time-series acoustic signals in chronological order, it relates to the performance or singing of the agent corresponding to the entire time-series acoustic signals. Get time-series video.
- the voice material stored in the voice material storage unit 24 is used as a learning time-series acoustic signal, an action label indicating the action of the agent is given to each time interval of each voice material, and learning is performed by the neural network.
- the sound type detection unit 11 of the user terminal 1-n separates the input acoustic signal for each sound type, and each sound after separation is separated.
- the processing of the above embodiment may be performed on the signal. Further, for example, a state in which a plurality of sound types such as "applause + cheers" and “applause + cheering" are mixed is defined as one sound type, and the input acoustic signal is processed as it is in the above embodiment. May be done.
- the configuration for selecting the cheering voice and / or the cheering video based on the aggregated result of the user's reaction is shown, but the audio material and / or the video material selected based on the reaction of each user is selected by each user. It may be output to a speaker and / or a display installed so as to correspond to the above. At this time, instead of outputting the video to the display, a panel on which a human figure is drawn may be installed. For example, if a small display is installed in the audience seats of a stadium where sports are held and a cheering video corresponding to each user's reaction is output, it is possible to reproduce the user's atmosphere throughout the stadium. ..
- the program that describes this processing content can be recorded on a computer-readable recording medium.
- the recording medium that can be read by a computer is, for example, a non-temporary recording medium, such as a magnetic recording device and an optical disc.
- this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded.
- the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
- a computer that executes such a program for example, first transfers a program recorded on a portable recording medium or a program transferred from a server computer to an auxiliary recording unit 1050, which is its own non-temporary storage device. Store. Then, at the time of executing the process, the computer reads the program stored in the auxiliary recording unit 1050, which is its non-temporary storage device, into the storage unit 1020, which is the temporary storage device, and follows the read program. Execute the process. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
- ASP Application Service Provider
- the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
- the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized in terms of hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
ユーザは文字列を入力することなく配信元に反応を伝え、かつ、イベントの当事者はユーザの反応を進行の妨げとならないように自然に感得する。応援支援装置(2)は、配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および/または映像信号からなる応援を配信元の空間で再生する。音声取得部(22)は、音声素材記憶部(24)から音声素材を取得する。映像取得部(25)は、音声取得部(22)が取得した音声素材に応じて映像素材記憶部(27)から映像素材を取得する。音声再生部(23)は、発した視聴者が多い音種別に対応する音声素材ほど強調して再生する。映像再生部(26)は、映像取得部(25)が取得した映像素材を再生する。
Description
この発明は、多数の拠点に配信されるイベント等の視聴者が遠隔から応援する技術に関する。
近年、スポーツ等のイベントをインターネット等のネットワークを介して多数の拠点へ配信する利用形態が普及している(例えば、非特許文献1参照)。図1は、非特許文献1に開示された配信システムの概要を示す図である。この配信システムは、配信対象とするイベントを撮影した元映像に基づいて配信映像を生成し、インターネット上で配信する映像配信装置9を備える。ユーザ10-n(n=1,…,N、Nは1以上の整数)は、各自のユーザ端末8-nを用いて映像配信装置9から配信される映像を視聴する。ユーザ10-nは、配信映像をリアルタイムに視聴しながら、ユーザ端末8-nの入力部81から感想やコメント等を表す文字列を入力する。ユーザ端末8-nの送信部82は、入力された文字列を映像配信装置9へ送信する。映像配信装置9の文字列受信部91は、各ユーザ端末8-nから文字列を受信する。映像配信装置9の文字列追加部92は、元映像に対して受信した文字列を追加することで、配信映像を生成する。生成された配信映像は、各ユーザ端末8-nへ配信される。このようにすることで、非特許文献1の配信システムは、各ユーザの反応をイベントの配信者や他のユーザへ伝えることができる。
株式会社ドワンゴ、"視聴しよう - ニコニコ生放送"、[online]、[令和2年6月26日検索]、インターネット<URL: https://site.live.nicovideo.jp/>
しかしながら、非特許文献1に開示された配信システムでは、ユーザは感想やコメント等を文字列で入力しなければならず、煩雑である。また、例えば、スポーツのイベントの場合、プレーヤがユーザから送信される文字列を視認しながらプレーすることは困難である。
この発明の目的は、上記のような技術的課題を鑑みて、ユーザは文字列を入力することなく配信元に反応を伝えることができ、かつ、イベントの当事者はユーザの反応を進行の妨げとならないように自然に感得できる技術を実現することである。
上記の課題を解決するために、本発明の一態様の応援支援方法は、配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および/または映像信号からなる応援を配信元の空間で再生する応援支援方法であって、応援を取得する取得ステップと、取得された応援を再生する再生ステップと、を有し、取得された応援は、複数の音種別のうち、発した視聴者が多い音種別に対応する応援ほど強調され、発した視聴者が少ない音種別に対応する応援ほど強調されず再生される。
この発明によれば、ユーザが発した音の種別に対応する音声および/または映像からなる応援を、その種別の音を発したユーザの数に基づいて強調して配信元で再生するため、ユーザは文字列を入力することなく配信元に反応を伝えることができ、かつ、イベントの当事者はユーザの反応を進行の妨げとならないように自然に感得できる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[実施形態]
この発明の実施形態は、多数の拠点に配信されるイベント等を視聴しているユーザが発した音に基づいて音響信号および/または映像信号からなる応援を生成し、その応援を配信元の拠点で再生する応援支援システムである。実施形態の応援支援システムは、図2に示すように、N個のユーザ空間100-1,…,100-Nと、1個の配信元空間200とからなる。例えばスポーツのイベントの場合、配信元空間はスポーツが行われる空間(例えばスタジアム等)であり、ユーザ空間はユーザがイベントを視聴する空間(例えば自宅等)である。各空間は、地理的に離隔した複数の建物に分散していてもよいし、1つの建物内の複数の部屋であってもよい。
この発明の実施形態は、多数の拠点に配信されるイベント等を視聴しているユーザが発した音に基づいて音響信号および/または映像信号からなる応援を生成し、その応援を配信元の拠点で再生する応援支援システムである。実施形態の応援支援システムは、図2に示すように、N個のユーザ空間100-1,…,100-Nと、1個の配信元空間200とからなる。例えばスポーツのイベントの場合、配信元空間はスポーツが行われる空間(例えばスタジアム等)であり、ユーザ空間はユーザがイベントを視聴する空間(例えば自宅等)である。各空間は、地理的に離隔した複数の建物に分散していてもよいし、1つの建物内の複数の部屋であってもよい。
各ユーザ空間100-nには、ユーザ10-nとユーザ端末1-nが存在する。ユーザ10-nはユーザ端末1-nを用いて配信される映像を視聴する。ユーザ端末1-nには、ユーザ10-nが発する音を集音するマイクロホンM-nが接続される。マイクロホンM-nは、ユーザ端末1-nの外部から有線または無線の各種インターフェイスで接続されていてもよいし、ユーザ端末1-nの筐体に内蔵されていてもよい。
配信元空間200には、少なくとも応援支援装置2が存在する。応援支援装置2には、音響信号である応援(以下、「応援音声」とも呼ぶ)を再生するスピーカSと、映像信号である応援(以下、「応援映像」とも呼ぶ)を再生するディスプレイDとが接続される。スピーカSおよびディスプレイDは、応援支援装置2の外部から有線または無線の各種インターフェイスで接続されていてもよいし、応援支援装置2の筐体に内蔵されていてもよいし、応援支援装置2の筐体と一体として形成されていてもよい。
ユーザ端末1-nは、図3に示すように、音種別検出部11および送信部14を備える。音種別検出部11は、特徴量変換部111および識別処理部112を備える。ユーザ端末1-nは、さらに、音声認識部12および音量計算部13を備えていてもよい。ユーザ端末1-nは、音種別検出部11、音声認識部12、および音量計算部13のうち、いずれか1つのみを備えていてもよいし、いずれか2つの組み合わせを備えていてもよいし、3つすべてを備えていてもよい。
応援支援装置2は、図4に示すように、集計部21、音声取得部22、音声再生部23、音声素材記憶部24、映像取得部25、映像再生部26、および映像素材記憶部27を備える。再生される応援が音響信号のみからなる場合、映像取得部25、映像再生部26、および映像素材記憶部27は備えなくともよい。再生される応援が映像信号のみからなる場合、音声取得部22、音声再生部23、および音声素材記憶部24は備えなくともよい。
ユーザ端末1-nおよび応援支援装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ユーザ端末1-nおよび応援支援装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ユーザ端末1-nおよび応援支援装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。ユーザ端末1-nおよび応援支援装置2は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。応援支援装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
ユーザ端末1-nは、具体的には、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの音声信号処理機能およびデータ通信機能を備えた情報処理装置である。応援支援装置2は、具体的には、デスクトップ型やラックマウント型のサーバコンピュータなどのデータ通信機能およびデータ処理機能を備えた情報処理装置である。
これらのユーザ端末1-nおよび応援支援装置2が協調して、図5に示す各ステップを実行することにより、実施形態の応援支援方法が実現される。以下、実施形態の応援支援システムが実行する応援支援方法について説明する。
ステップS10において、ユーザ端末1-nに接続されたマイクロホンM-nは、ユーザ10-nが発した音(以下、「ユーザの反応」とも呼ぶ)を集音する。ユーザの反応には、例えば、配信する映像がスポーツの試合である場合、拍手の音、歓声、応援の声などが含まれる。したがって、マイクロホンM-nが集音した音響信号は、ユーザの声が含まれている音声信号であることもあれば、ユーザの声が含まれていない音信号であることもある。マイクロホンM-nが集音した音響信号は、ユーザ端末1-nの音種別検出部11へ入力される。ユーザ端末1-nが音声認識部12および/または音量計算部13を備える場合、マイクロホンM-nが集音した音響信号は音声認識部12および/または音量計算部13へも入力される。
ステップS11において、ユーザ端末1-nは、マイクロホンM-nが集音した音響信号に基づいて、ユーザの反応を表す反応情報を生成する。反応情報の内容は、ユーザ端末1-nが音種別検出部11、音声認識部12、および音量計算部13のいずれを備えるかによって異なる。
ユーザ端末1-nが音種別検出部11を備える場合、反応情報は、ユーザが発した音が予め定めた複数の音種別のいずれであるかを識別した結果を含む。すなわち、音種別検出部11は、入力された音響信号を予め定めた複数の音種別のいずれかに識別し、その識別結果を反応情報として出力する。例えば、配信する映像がスポーツの試合である場合、予め定めた音種別は、例えば、拍手、歓声、応援などである。具体的には、まず、特徴量変換部111が、入力された音響信号を、例えば周波数スペクトルやケプストラムなどの音響特徴量へ変換する。次に、識別処理部112が、音響特徴量を事前に学習されたニューラルネットワークなどの識別器に入力することで、その音響特徴量が予め定めた音種別のいずれに該当するかを識別する。
ユーザ端末1-nが音声認識部12を備える場合、反応情報は、ユーザが発話した音声が表す文字列を含む。すなわち、音声認識部12は、入力された音響信号を音声認識することで文字列に変換し、その文字列を反応情報として出力する。
ユーザ端末1-nが音量計算部13を備える場合、反応情報は、ユーザが発した音の音量を含む。すなわち、音量計算部13は、入力された音響信号の音量を計算し、その音量を表す情報を反応情報として出力する。
ステップS14において、ユーザ端末1-nの送信部14は、音種別検出部11、音声認識部12、および音量計算部13のうち少なくとも1つが出力した反応情報を、応援支援装置2へ送信する。応援支援装置2は、各ユーザ端末1-nから受信した反応情報を集計部21へ入力する。
ステップS21において、応援支援装置2の集計部21は、各ユーザ端末1-nから受信した反応情報を集計し、その集計結果を出力する。集計部21は、例えば、図6に示すように、受信データバッファ211および音種別集計部212を備える。集計部21は、さらに、文字列集計部213および/または平均音量計算部214を備えていてもよい。集計部21が文字列集計部213および平均音量計算部214それぞれを備えるか否かは、ユーザ端末1-nから受信する反応情報の内容によって決定される。すなわち、反応情報が文字列を含む場合(すなわち、ユーザ端末1-nが音声認識部12を備える場合)、集計部21は文字列集計部213を備える。また、反応情報が音量を含む場合(すなわち、ユーザ端末1-nが音量計算部13を備える場合)、集計部21は平均音量計算部214を備える。
受信データバッファ211は、各ユーザ端末1-nから受信した反応情報を、一定時間分FIFOバッファにより蓄積する。蓄積する時間長は予め設定されており、例えば、1秒から数十秒程度である。音種別集計部212は、受信データバッファ211に蓄積された反応情報(すなわち、音種別の識別結果)を音種別ごとにカウントし、音種別ごとの受信数(すなわち、その音種別に該当する音を発した視聴者の数)を表す音種別集計結果を出力する。文字列集計部213は、受信データバッファ211に蓄積された反応情報(すなわち、音声認識結果)を文字列ごとにカウントし、文字列ごとの受信数(すなわち、その文字列を発話した視聴者の数)を表す文字列集計結果を出力する。平均音量計算部214は、受信データバッファ211に蓄積された反応情報(すなわち、音量)から一定時間内の音量の平均を表す平均音量計算結果を出力する。なお、音量集計結果は、視聴者全体の平均値であってもよいし、音種別ごとまたは文字列ごとの平均値であってもよい。
ステップS22において、応援支援装置2の音声取得部22は、集計部21が出力する集計結果に基づいて、配信元空間で再生する応援音声を取得し、出力する。音声取得部22は、事前に用意され音声素材記憶部24に記憶された音声素材を用いて、応援音声を取得する。
音声素材記憶部24は、図7に示すように、K種類の音声素材241-1,…,241-K(Kは音種別の数であり、2以上の整数)が予め記憶されている。各音声素材241-k(k=1,…,K)は、ユーザが発した音を識別した複数の音種別にそれぞれ対応して予め設定された音響信号である。例えば、配信する映像がスポーツの試合である場合、大勢の観客が拍手をしている音の音声素材241-1、歓声を上げている音の音声素材241-2、および応援している音の音声素材241-3等を用意しておけばよい。応援の音は、試合の進行状況(例えば、野球の試合であれば、打者ごとに応援歌が異なる場合や、得点圏に走者がおり得点の好機である場合等)に応じて変更してもよい。この場合、音声素材記憶部24はさらに選択部242を備える。選択部242は、予め定めたルールに従って自動的にもしくは手動で外部から入力される操作信号に応じて、応援している音の音声素材241-3を指定された音響信号に変更する。
音声取得部22は、図7に示すように、ゲイン値設定部220、K個のゲイン221-k、および加算部222を備える。各ゲイン221-kは、音声素材241-kにそれぞれ対応する。ゲイン値設定部220は、集計部21が出力する集計結果に基づいて、各音声素材241-kに対応するゲイン221-kを算出し設定する。例えば、音種別集計結果が表す各音種別の受信数に応じてゲインを設定する。この場合、音種別ごとの受信数をNkとしたとき、ゲインGkをGk=α・Nkで求める。ここで、αは予め定めた定数であり、例えば視聴者数の逆数である。また、最も受信数が多い音種別のみを有効とし、他の音種別のゲインを0に設定してもよい。また、例えば、平均音量計算結果が表す音種別ごとの平均音量も用いて、音種別の受信数に平均音量を乗じた値(すなわち、音種別ごとの視聴者の音量の総和)に応じてゲインを設定してもよい。この場合、音種別ごとの平均音量をVkとし、ゲインGkをGk=α・Vk・Nkで求める。加算部222は、音声素材241-kにゲイン221-kを乗じた各信号を加算して応援音声として出力する。
音声取得部22は、音声合成部223およびゲイン224をさらに備えていてもよい。音声合成部223およびゲイン224は、ユーザ端末10-nが音声認識部12を備える場合(すなわち、集計部21に入力される反応情報に音声認識結果の文字列が含まれ、集計部21が文字列集計結果を出力する場合)に必要となる。音声合成部223は、文字列集計結果のうち受信数が多い方から所定の数の文字列を抽出し、その文字列を音声合成する。ゲイン値設定部220は、各文字列の受信数やその平均音量に応じてゲイン224を算出し設定する。加算部222は、音声素材241-kにゲイン221-kを乗じた各信号に加えて、音声合成部223の出力信号にゲイン224を乗じた信号も加算して応援音声として出力する。このとき、加算後の信号がゲインの上限を超えないように、各ゲインの最大値を設定しておいてもよい。
ステップS23において、応援支援装置2の音声再生部23は、音声取得部22が出力する応援音声を、応援支援装置2に接続されたスピーカSから再生する。
ステップS25において、応援支援装置2の映像取得部25は、集計部21が出力する集計結果に基づいて、配信元空間で再生する応援映像を取得し、出力する。映像取得部25は、事前に用意され映像素材記憶部27に記憶された映像素材を用いて、応援映像を取得する。
映像素材記憶部27は、図8に示すように、K種類の映像素材271-1,…,271-Kが予め記憶されている。各映像素材271-kは、ユーザが発した音を識別した複数の音種別にそれぞれ対応して予め設定された映像信号である。例えば、配信する映像がスポーツの試合である場合、大勢の観客が拍手をしている映像の映像素材271-1、歓声を上げている映像の映像素材271-2、および応援をしている映像の映像素材271-3などを用意しておけばよい。応援の映像は、試合の進行状況に応じて変更してもよい。この場合、映像素材記憶部27はさらに選択部272を備える。選択部272は、予め定めたルールに従って自動的にもしくは手動で外部から入力される操作信号に応じて、応援している映像の映像素材271-3を指定された映像信号に変更する。
映像取得部25は、図8に示すように、映像選択部251を備える。映像選択部251は、集計部21が出力する集計結果に基づいて、各映像素材271-kのうち適切なものを選択する。例えば、音種別集計結果が表す各音種別の受信数Nkが最も大きい音種別に対応する映像素材を選択する。また、例えば、平均音量計算結果が表す音種別ごとの平均音量Vkも用いて、音種別の受信数Nkに平均音量Vkを乗じた値Vk・Nkが最も大きい音種別に対応する映像素材を選択してもよい。映像取得部25は、選択した映像素材を応援映像として出力する。
映像取得部25は、メータ表示部252をさらに備えていてもよい。メータ表示部252は、集計部21が出力する集計結果に基づいて算出した指標をメータ表示にして映像素材に合成することで、応援映像を生成する。集計結果に基づく指標は、例えば、映像素材を選択する際に用いた値である。例えば、音種別の受信数Nkであってもよいし、音種別の受信数Nkに平均音量Vkを乗じた値Vk・Nkであってもよい。メータ表示の例を、図9に示す。図9の例では、応援映像2501の右端に縦長矩形のメータ2502を表示する。メータ2502は、下辺を0、上辺を最大値(MAX)として、上側領域と下側領域とを塗り分けることで、指標の値を表す。なお、図9はメータ表示の一例であり、指標が容易に視認できるような表示であればどのようなものであっても構わない。
ステップS26において、応援支援装置2の映像再生部26は、映像取得部25が出力する応援映像を、応援支援装置2に接続されたディスプレイDから再生する。
上記のように構成することにより、実施形態の応援支援システムによれば、異なる拠点に分散している多数の視聴者の反応を集約した音声および/または映像を配信元の拠点に提示することができる。これにより、視聴者は文字列入力等の煩雑な操作を行う必要なく配信元へ反応を伝えることができ、イベントの当事者は視覚を奪われることなく視聴者の盛り上がり等の雰囲気を体感することができる。
[変形例1]
実施形態の映像取得部25は、予め用意した映像素材を選択することで応援映像を取得した。変形例1の映像取得部25は、集計結果等に基づいて動的に映像を生成することで、よりユーザの反応に適した応援映像を取得する。
実施形態の映像取得部25は、予め用意した映像素材を選択することで応援映像を取得した。変形例1の映像取得部25は、集計結果等に基づいて動的に映像を生成することで、よりユーザの反応に適した応援映像を取得する。
変形例1の映像取得部25は、音声取得部22が取得した応援音声から人物の動作を表すモーションを生成し、予め設定した映像素材にそのモーションに従った動作をさせた映像信号を応援映像として取得する。音響信号からモーションを生成し、映像素材にモーションに従った動作をさせる技術は、例えば、参考文献1に開示された技術を用いて実現することができる。
〔参考文献1〕特開2018-32316号公報
〔参考文献1〕特開2018-32316号公報
例えば、ユーザごとに予め自身のアバターを設定しておき、そのアバターが応援音声として取得された応援歌等の音楽に合わせて振り付けられたモーションをとる映像を合成することで、大勢のユーザが音楽に合わせて踊る応援映像を生成することや、ユーザごとに反応に対応するモーションを行っている映像を生成することが可能となる。後者の映像は、例えば、ユーザ10-1は拍手するモーションを行い、ユーザ10-Nは叫んでいるモーションを行う映像である。このとき、集計部21が出力する集計結果に基づいて、応援映像中でモーションをとるユーザの数を制御するように構成してもよい。例えば、ユーザが発した音の半分が応援の音である場合、応援映像中に現れるユーザのうち半分程度がモーションをとるように構成することができる。
以下、参考文献1に記載の映像生成技術について説明する。この映像生成技術は、N種類の楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を入力とし、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得る。Nは1以上の整数のいずれかである。この映像生成技術では、深層学習を用いて、音と行動の関係をあらかじめニューラルネットワークを用いて記述することで、音を入力するだけで行動パターンを推定する。すなわち、事前に学習したニューラルネットワークに時系列音響信号、あるいはそれらを特徴量子化したベクトル群を入力することで、時系列音響信号に対応するエージェントの行動パターンを推定する。ここで、ニューラルネットワークは全結合型深層ニューラルネットワーク(Full-connected Deep Neural Networks)、再帰型ニューラルネットワーク(Recurrent Neural Networks)、畳み込みニューラルネットワーク(Convolutional Neural Networks)等のどれでもよい。つまり、この映像生成技術は、ニューラルネットワークの実装形態に依存しない。
参考文献1の映像生成技術では、まず、N個の時系列音響信号を入力とし、各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る。このとき、時系列音響信号と演奏または歌唱するエージェントの行動との関係を表す行動生成モデルを用いて、N個の各時系列音響信号に含まれる各時間区間についてのエージェントの時間区間映像を得る。行動生成モデルは、N種類の楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するエージェントの行動を示す行動ラベルとを用いて、事前に学習により得られる。次に、N個の各時系列音響信号について、その時系列音響信号について得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る。
すなわち、音声素材記憶部24に記憶された音声素材を学習用時系列音響信号とし、各音声素材の各時間区間にエージェントの行動を示す行動ラベルを与えて、ニューラルネットワークで学習することで、ユーザが予め設定したアバターが音声素材に従ってモーションをとる応援映像を生成することができる。
[変形例2]
上記実施形態では、各ユーザ空間で1人のユーザがイベントを視聴していることを想定した。しかしながら、例えばスポーツバーなどのように、1つのユーザ空間において複数のユーザがイベントを視聴することも考えられる。この場合、あるユーザは拍手をしているが、他のあるユーザは歓声を上げているなど、同じユーザ空間に存在する各ユーザが様々な反応を示すことがあり得る。この場合、マイクロホンで集音された音響信号には、複数の音種別が混合することになる。
上記実施形態では、各ユーザ空間で1人のユーザがイベントを視聴していることを想定した。しかしながら、例えばスポーツバーなどのように、1つのユーザ空間において複数のユーザがイベントを視聴することも考えられる。この場合、あるユーザは拍手をしているが、他のあるユーザは歓声を上げているなど、同じユーザ空間に存在する各ユーザが様々な反応を示すことがあり得る。この場合、マイクロホンで集音された音響信号には、複数の音種別が混合することになる。
マイクロホンで集音された音響信号に複数種類の反応が含まれ得る場合、ユーザ端末1-nの音種別検出部11が、入力された音響信号を音種別ごとに分離し、分離後の各音響信号に対して上記実施形態の処理を行えばよい。また、例えば、「拍手+歓声」や「拍手+応援」など、複数の音種別が混合した状態を1つの音種別として定義しておき、入力された音響信号に対してそのまま上記実施形態の処理を行ってもよい。
[変形例3]
上記実施形態では、ユーザの反応の集計結果に基づいて応援音声および/または応援映像を選択する構成を示したが、各ユーザの反応に基づいて選択した音声素材および/または映像素材を、各ユーザに対応するように設置されたスピーカおよび/またはディスプレイへそれぞれ出力してもよい。このとき、ディスプレイへの映像出力に代えて人間の姿が描かれたパネルを設置しておいてもよい。例えば、スポーツが行われているスタジアムの観客席に小型のディスプレイを設置しておき、各ユーザの反応に対応した応援映像を出力すれば、スタジアム全体にユーザの雰囲気を再現することが可能となる。
上記実施形態では、ユーザの反応の集計結果に基づいて応援音声および/または応援映像を選択する構成を示したが、各ユーザの反応に基づいて選択した音声素材および/または映像素材を、各ユーザに対応するように設置されたスピーカおよび/またはディスプレイへそれぞれ出力してもよい。このとき、ディスプレイへの映像出力に代えて人間の姿が描かれたパネルを設置しておいてもよい。例えば、スポーツが行われているスタジアムの観客席に小型のディスプレイを設置しておき、各ユーザの反応に対応した応援映像を出力すれば、スタジアム全体にユーザの雰囲気を再現することが可能となる。
[変形例4]
上記実施形態では、ユーザの反応をユーザ全体で集計して応援音声および/または応援映像を出力する構成を示したが、ユーザを複数の集合に分割しておき、各集合についてユーザの反応を集計して集合ごとに応援音声および/または応援映像を出力してもよい。例えば、スポーツが行われているスタジアムにおいてホーム側の観客席とアウェー側の観客席とに領域を分割しておき、ホーム側に関連付けられたユーザの反応と、アウェー側に関連付けられたユーザの反応とで、異なる応援音声および/または応援映像を出力することが可能となる。
上記実施形態では、ユーザの反応をユーザ全体で集計して応援音声および/または応援映像を出力する構成を示したが、ユーザを複数の集合に分割しておき、各集合についてユーザの反応を集計して集合ごとに応援音声および/または応援映像を出力してもよい。例えば、スポーツが行われているスタジアムにおいてホーム側の観客席とアウェー側の観客席とに領域を分割しておき、ホーム側に関連付けられたユーザの反応と、アウェー側に関連付けられたユーザの反応とで、異なる応援音声および/または応援映像を出力することが可能となる。
[変形例5]
上記実施形態では、イベントの当事者に対してユーザの反応を提示する構成を示したが、同時に、ユーザの反応を同じイベントを視聴している他のユーザへ提示してもよい。具体的には、応援支援システムがユーザ端末1-nへ配信する映像に、集計部21が出力する集計結果に基づく指標を合成する。これにより、イベントの視聴者はそのイベントの視聴者全体の雰囲気を感じながら応援することができるようになる。
上記実施形態では、イベントの当事者に対してユーザの反応を提示する構成を示したが、同時に、ユーザの反応を同じイベントを視聴している他のユーザへ提示してもよい。具体的には、応援支援システムがユーザ端末1-nへ配信する映像に、集計部21が出力する集計結果に基づく指標を合成する。これにより、イベントの視聴者はそのイベントの視聴者全体の雰囲気を感じながら応援することができるようになる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図10に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図10に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを一時的な記憶装置である記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および/または映像信号からなる応援を前記配信元の空間で再生する応援支援方法であって、
前記応援を取得する取得ステップと、
取得された応援を再生する再生ステップと、
を有し、
前記取得された応援は、複数の音種別のうち、発した視聴者が多い音種別に対応する応援ほど強調され、発した視聴者が少ない音種別に対応する応援ほど強調されず再生される、
応援支援方法。 - 請求項1に記載の応援支援方法であって、
前記取得された応援は、複数の視聴者が発した音の音量の総和が大きい音種別に対応する応援ほど大きな音量で再生される、
応援支援方法。 - 請求項1に記載の応援支援方法であって、
前記応援が映像信号を含む場合、その映像信号は、複数の視聴者が発した音の音種別に応じて取得される、
応援支援方法。 - 請求項1に記載の応援支援方法であって、
前記視聴者が発した音を予め定めた複数の音種別のいずれかに識別した識別結果を受信し、前記音種別ごとに発した視聴者の数を集計する集計ステップをさらに含む、
応援支援方法。 - 請求項1に記載の応援支援方法であって、
前記視聴者が発した音に含まれる前記視聴者の発話を音声認識した文字列を受信し、前記文字列ごとに発話した視聴者の数を集計する集計ステップをさらに含み、
前記取得された応援は、発話した視聴者が多い文字列ほど強調された音響信号を加算して再生される、
応援支援方法。 - 請求項2に記載の応援支援方法であって、
前記視聴者が発した音の音量を受信し、前記音種別ごとに前記音量の統計値を計算する集計ステップをさらに含む、
応援支援方法。 - 配信元の空間とは異なる複数の空間にいる視聴者が発した音に基づく音響信号および/または映像信号からなる応援を前記配信元の空間で再生する応援支援装置であって、
前記応援を取得する取得部と、
取得された応援を再生する再生部と、
を備え、
前記取得された応援は、複数の音種別のうち、発した視聴者が多い音種別に対応する応援ほど強調され、発した視聴者が少ない音種別に対応する応援ほど強調されず再生される、
応援支援装置。 - 請求項1から6のいずれかに記載の応援支援方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/016,851 US20230353800A1 (en) | 2020-07-21 | 2020-07-21 | Cheering support method, cheering support apparatus, and program |
PCT/JP2020/028303 WO2022018828A1 (ja) | 2020-07-21 | 2020-07-21 | 応援支援方法、応援支援装置、およびプログラム |
JP2022538531A JP7480846B2 (ja) | 2020-07-21 | 2020-07-21 | 応援支援方法、応援支援装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/028303 WO2022018828A1 (ja) | 2020-07-21 | 2020-07-21 | 応援支援方法、応援支援装置、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022018828A1 true WO2022018828A1 (ja) | 2022-01-27 |
Family
ID=79729105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/028303 WO2022018828A1 (ja) | 2020-07-21 | 2020-07-21 | 応援支援方法、応援支援装置、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230353800A1 (ja) |
JP (1) | JP7480846B2 (ja) |
WO (1) | WO2022018828A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024047755A1 (ja) * | 2022-08-30 | 2024-03-07 | 日本電信電話株式会社 | 音響情報出力制御装置、方法およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019229909A1 (ja) * | 2018-05-30 | 2019-12-05 | 株式会社ウフル | 熱狂度表示システム、スタジアム熱狂度表示方法、プログラム、およびセンサ端末 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090006371A (ko) * | 2007-07-11 | 2009-01-15 | 야후! 인크. | 온라인 방송 시스템에서 방송 시청자들 또는 청취자들에게가상 공존감(virtual co-presence)을제공하기 위한 방법 및 시스템 |
JP6039915B2 (ja) | 2011-07-08 | 2016-12-07 | 株式会社ドワンゴ | ステージ演出システム、演出制御サブシステム、ステージ演出システムの動作方法、演出制御サブシステムの動作方法、およびプログラム |
JP2021182696A (ja) * | 2020-05-19 | 2021-11-25 | 憲保 池田 | 双方向放送方法及びシステム |
-
2020
- 2020-07-21 WO PCT/JP2020/028303 patent/WO2022018828A1/ja active Application Filing
- 2020-07-21 US US18/016,851 patent/US20230353800A1/en active Pending
- 2020-07-21 JP JP2022538531A patent/JP7480846B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019229909A1 (ja) * | 2018-05-30 | 2019-12-05 | 株式会社ウフル | 熱狂度表示システム、スタジアム熱狂度表示方法、プログラム、およびセンサ端末 |
Non-Patent Citations (1)
Title |
---|
SUZUKI, YU ET AL.: "Evaluation of Group Applause Sound Transmission System for High-Presence Live Viewing", PROCEEDINGS OF THE 2018 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; SAITAMA, JAPAN; MARCH 13-15, 2018, 20 March 2018 (2018-03-20) - 15 March 2018 (2018-03-15), JP, pages 1555 - 1556, XP009534263 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024047755A1 (ja) * | 2022-08-30 | 2024-03-07 | 日本電信電話株式会社 | 音響情報出力制御装置、方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022018828A1 (ja) | 2022-01-27 |
JP7480846B2 (ja) | 2024-05-10 |
US20230353800A1 (en) | 2023-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202009924A (zh) | 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體 | |
US8158873B2 (en) | Systems and methods for generating a game device music track from music | |
US20090240360A1 (en) | Media player and audio processing method thereof | |
CN110447071B (zh) | 信息处理装置、信息处理方法和记录程序的可拆卸介质 | |
JP7453712B2 (ja) | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 | |
WO2022018828A1 (ja) | 応援支援方法、応援支援装置、およびプログラム | |
WO2022163137A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2002091291A (ja) | ピアノ教授用データ通信システム | |
JP2022020625A (ja) | 音声処理システム、音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6367748B2 (ja) | 認識装置、映像コンテンツ提示システム | |
JP6568351B2 (ja) | カラオケシステム、プログラム及びカラオケ音声再生方法 | |
JP7435119B2 (ja) | 映像データ処理装置、映像配信システム、映像編集装置、映像データ処理方法、映像配信方法、及びプログラム | |
WO2021246104A1 (ja) | 制御方法および制御システム | |
JP2014123085A (ja) | カラオケにおいて歌唱に合わせて視聴者が行う身体動作等をより有効に演出し提供する装置、方法、およびプログラム | |
JP6619072B2 (ja) | 音合成装置、音合成方法、及びそのプログラム | |
WO2021210338A1 (ja) | 再生制御方法、制御システムおよびプログラム | |
JP2017092832A (ja) | 再生方法および再生装置 | |
US20220109911A1 (en) | Method and apparatus for determining aggregate sentiments | |
WO2022230052A1 (ja) | ライブ配信装置、ライブ配信方法 | |
WO2023243375A1 (ja) | 情報端末、情報処理方法、プログラム、および情報処理装置 | |
WO2023157650A1 (ja) | 信号処理装置および信号処理方法 | |
WO2023084933A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2023022004A1 (ja) | 制御システムの動作方法、制御システムおよびプログラム | |
WO2024047816A1 (ja) | 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム | |
JP5789477B2 (ja) | 画像再生装置及び画像再生システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20946205 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022538531 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20946205 Country of ref document: EP Kind code of ref document: A1 |