WO2024047814A1 - 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム - Google Patents

再生音量制御方法、再生音量制御装置及び再生音量制御プログラム Download PDF

Info

Publication number
WO2024047814A1
WO2024047814A1 PCT/JP2022/032861 JP2022032861W WO2024047814A1 WO 2024047814 A1 WO2024047814 A1 WO 2024047814A1 JP 2022032861 W JP2022032861 W JP 2022032861W WO 2024047814 A1 WO2024047814 A1 WO 2024047814A1
Authority
WO
WIPO (PCT)
Prior art keywords
volume
sound
likelihood
feature
unit
Prior art date
Application number
PCT/JP2022/032861
Other languages
English (en)
French (fr)
Inventor
隆行 黒住
真二 深津
英一郎 松本
俊彦 江浦
馨亮 長谷川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/032861 priority Critical patent/WO2024047814A1/ja
Publication of WO2024047814A1 publication Critical patent/WO2024047814A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams

Definitions

  • One aspect of the present invention relates to a playback volume control method, a playback volume control device, and a playback volume control program.
  • video and audio playback has become popular, in which video and audio captured and recorded at a certain point are digitized and transmitted in real time to a remote location via communication lines such as IP (Internet Protocol) networks, and the video and audio are played back at the remote location.
  • IP Internet Protocol
  • devices have come into use.
  • online live performances and public viewing which transmit real-time video and audio of live music performances held at music venues and sports competitions held at competition venues, to remote locations are becoming more popular. It's being done.
  • Such video/audio transmission is not limited to one-to-one one-way transmission.
  • Video and audio are transmitted from the venue where the music live performance is being held (hereinafter referred to as the event venue) to multiple remote locations, and even at each of these multiple remote locations, the video and audio such as cheers of the audience enjoying the live performance are transmitted.
  • Two-way transmission is also being carried out, in which video and audio are photographed and recorded, transmitted to event venues and other remote locations, and output from large video display devices and speakers at each site.
  • Non-Patent Document 1 and Non-Patent Document 2 describe methods for selecting sounds based on sound characteristics associated with images.
  • Cross-modal sound search based on specific co-occurrence relationships indicated by weak labels, Masahiro Yasuda, Yasutoshi Oishi, Yuma Koizumi, Noboru Harada, Proceedings of the Acoustical Society of Japan, September 2020 Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, and Noboru Harada.
  • Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. Proc. Interspeech 2020, pp. 1446-1450, 2020.
  • Non-Patent Document 1 and Non-Patent Document 2 are methods of selecting sounds based on sound characteristics related to images, and it is difficult to control the volume.
  • This invention has been made in view of the above circumstances, and its purpose is to provide a technology for reproducing sound related to images by controlling the volume.
  • the reproduction volume control method includes a volume state changing step of changing the volume state of a sound source based on volume likelihood information, a volume state storing step of storing the volume state, and a volume state storing step of storing the volume state. and a sound source reproduction step of reproducing the sound source at the volume.
  • sound related to video can be played back while controlling the volume.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the playback volume control system according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of the software configuration of a server that constitutes the playback volume control system according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of an image of an audience at a remote location according to the first embodiment.
  • FIG. 4 is a diagram showing an example of a video at an event venue according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of a volume change according to the first embodiment.
  • FIG. 6 is a flowchart illustrating an example of a reproduction volume control procedure and processing contents of the server according to the first embodiment.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the playback volume control system according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of the software configuration of a server that constitutes the playback volume control system according to the first embodiment.
  • FIG. 7 is a flowchart illustrating an example of a reproduction volume control procedure and processing contents of the server according to the first embodiment.
  • FIG. 8 is a flowchart showing a specific example of the reproduction volume control procedure and processing contents of the server according to the first embodiment.
  • FIG. 9 is a block diagram illustrating an example of the software configuration of a server configuring a playback volume control system according to a modification of the first embodiment.
  • FIG. 10 is a flowchart illustrating an example of a reproduction volume control procedure and processing contents of a server according to a modification of the first embodiment.
  • FIG. 11 is a flowchart showing another example of the reproduction volume control procedure and processing contents of the server according to the modification of the first embodiment.
  • FIG. 12 is a block diagram illustrating an example of the software configuration of a server that constitutes the playback volume control system according to the second embodiment.
  • FIG. 13 is a flowchart illustrating an example of the likelihood determination procedure and processing contents of the server according to the second embodiment.
  • FIG. 14 is a block diagram illustrating an example of the software configuration of a server that constitutes the playback volume control system according to the third embodiment.
  • FIG. 15 is a flowchart illustrating an example of the likelihood determination procedure and processing contents of the server according to the third embodiment.
  • FIG. 16 is a block diagram illustrating an example of the software configuration of a server configuring the playback volume control system according to the fourth embodiment.
  • FIG. 17 is a flowchart illustrating an example of the likelihood determination procedure and processing contents of the server according to the fourth embodiment.
  • FIG. 18 is a diagram illustrating an example of a method of photographing a video at an event venue according to the embodiment.
  • the cheering sound shall be played using the characteristics of the remote audience video as shown in Figure 3.
  • FIG. 3 shows images of multiple remote spectators.
  • FIG. 3 shows a situation in which multiple remote spectators are excited using penlights.
  • cheering sounds are selected using the characteristics of a 5 ⁇ 5 matrix input video as shown in FIG.
  • the cheering sound may be selected using the characteristics of the image of the crowd at the event venue as shown in FIG.
  • FIG. 4 shows a crowd at an event venue being excited using penlights.
  • a part of the video of the crowd at the event venue may be cut out and used as the input video, or the entire video may be used as the input video.
  • the audience carries a characteristic item such as a penlight, and uses the item to express excitement when the event is more exciting than usual.
  • the first embodiment is an embodiment in which cheering sounds from remote audience members are played back at an event venue.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the playback volume control system according to the first embodiment.
  • the playback volume control system S includes a server 1, an audio output device 101, a video output device 102, and a plurality of audience terminals 2 to 2n.
  • the server 1, the audio output device 101, the video output device 102, and the plurality of audience terminals 2 to 2n can communicate with each other via an IP network.
  • the server 1 is an electronic device that collects data and processes the collected data.
  • Electronic devices include computers.
  • the audio output device 101 is a device that includes a speaker that reproduces and outputs audio.
  • the audio output device 101 is, for example, a device that outputs audio at an event venue.
  • the video output device 102 is a device that includes a display that plays and displays video.
  • the display is a liquid crystal display.
  • the video output device 102 is, for example, a device that plays and displays video at an event venue.
  • Each of the spectator terminals 2 to 2n is a terminal used by each of a plurality of remote spectators.
  • Each of the spectator terminals 2 to 2n is an electronic device having an input function, a display function, and a communication function.
  • each of the audience terminals 2 to 2n is a tablet terminal, a smartphone, a PC (Personal Computer), or the like, but is not limited to these.
  • the spectator terminal 2 is an example of a terminal.
  • the server 1 includes a control section 11, a program storage section 12, a data storage section 13, a communication interface 14, and an input/output interface 15. Each element included in the server 1 is connected to each other via a bus.
  • the control unit 11 corresponds to the central part of the server 1.
  • the control unit 11 includes a processor such as a central processing unit (CPU).
  • the control unit 11 includes a ROM (Read Only Memory) as a nonvolatile memory area.
  • the control unit 11 includes a RAM (Random Access Memory) as a volatile memory area.
  • the processor expands the program stored in the ROM or the program storage unit 12 into the RAM.
  • the control unit 11 realizes each functional unit described below by the processor executing the program loaded in the RAM.
  • the control unit 11 constitutes a computer.
  • the program storage unit 12 is configured of a non-volatile memory that can be written to and read from at any time, such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), as a storage medium.
  • the program storage unit 12 stores programs necessary to execute various control processes.
  • the program storage unit 12 stores a program that causes the server 1 to execute processing by each functional unit implemented in the control unit 11, which will be described later.
  • the program storage unit 12 is an example of storage.
  • the data storage unit 13 is composed of a nonvolatile memory that can be written to and read from at any time, such as an HDD or an SSD, as a storage medium.
  • the data storage unit 13 is an example of a storage or a storage unit.
  • the communication interface 14 includes various interfaces that communicatively connect the server 1 to other electronic devices using communication protocols defined by IP networks.
  • the input/output interface 15 is an interface that enables communication between the server 1 and each of the audio output device 101 and the video output device 102.
  • the input/output interface 15 may include a wired communication interface or a wireless communication interface.
  • the hardware configuration of the server 1 is not limited to the above-mentioned configuration.
  • the server 1 allows the above-mentioned components to be omitted and changed, and new components to be added as appropriate.
  • FIG. 2 is a block diagram showing an example of the software configuration of the server 1 that constitutes the playback volume control system according to the first embodiment.
  • the server 1 includes a volume state change unit 110, a volume change unit 111, a sound source playback unit 112, and a volume state storage unit 130.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the volume state storage unit 130 is realized by the data storage unit 13.
  • the volume state changing unit 110 changes the volume state of the sound source based on the acquired volume likelihood information.
  • the sound sources include sound sources obtained from the audience terminals 2 to 2n.
  • the sound source is, for example, the cheering sound of the remote audience obtained from the audience terminals 2 to 2n.
  • the sound source is, for example, a reproduced sound source that is reproduced at an event venue.
  • the reproduced sound source is also simply referred to as a sound source.
  • the volume state indicates any state from the minimum volume to the maximum volume.
  • the minimum volume indicates, for example, a silent state.
  • the volume state includes, for example, "minimum", "half", “maximum”, etc.
  • the volume state changing unit 110 acquires the volume likelihood state.
  • the volume likelihood state indicates the volume likelihood as a numerical value.
  • the volume likelihood state takes a value of "0" or "1", for example.
  • the initial value of the volume likelihood state is "0". For example, if the volume likelihood state is "0", the volume is the minimum volume. The initial value of the volume is the minimum volume.
  • the volume state changing unit 110 updates the volume state stored in the volume state storage unit 130 based on the volume likelihood state. Updating the volume state includes maintaining the volume state and changing the volume state. Updating the volume state includes setting the volume state to an initial value. The initial value is, for example, "minimum”. In the following description, "obtain” may be read as “input,” “read,” or “receive.”
  • the volume change unit 111 changes the volume of the sound source based on the volume state.
  • the volume change unit 111 initializes the volume of the sound source to be reproduced in advance.
  • the volume change unit 111 initializes the volume by setting "0" as the volume, for example.
  • the volume change unit 111 changes the volume of the sound source based on the volume state of the volume state storage unit 130.
  • the volume includes "minimum volume,” “half volume,” “maximum volume,” and the like.
  • the minimum volume is "0".
  • the sound source reproduction unit 112 reproduces the input sound source at the volume changed by the volume changing unit 111.
  • the sound source reproduction unit 112 obtains a reproduced sound source.
  • the sound source reproduction unit 112 obtains a cheering sound as a reproduction sound source.
  • the sound source reproduction unit 112 reproduces the reproduced sound source based on the initial volume.
  • the volume state storage unit 130 stores the volume state.
  • the volume status storage unit 130 updates the volume status every time the audio status is updated by the volume status changing unit 110.
  • FIG. 5 is a diagram illustrating an example of a volume change according to the first embodiment.
  • FIG. 5 is a diagram conceptually showing a change in the volume state of a sound source by the volume state change unit 110 and a change in the volume of the sound source by the volume change unit 111 based on the change in the volume state.
  • the sound source reproduction unit 112 will be described using an example in which the sound source of the remote audience is acquired from the audience terminals 2 to 2n as the reproduction sound source. It is assumed that the volume state of the cheering sound is set to the initial value "0".
  • the volume state changing unit 110 increases the volume of the sound source to half the volume over 1 second. If the volume likelihood information is "0" when the volume of the sound source reaches half, the volume state change unit 110 lowers the volume of the sound source over 2 seconds. If the volume likelihood state continues to be "1", the volume state changing unit 110 increases the volume of the sound source to the maximum volume over 1 second. If the volume likelihood information remains "1", the volume state changing unit 110 maintains the maximum volume. When the volume likelihood information becomes "0", the volume state changing unit 110 lowers the volume of the sound source to half over 2 seconds.
  • the volume state change unit 110 increases the volume of the sound source to the maximum volume again over 1 second, and if the volume likelihood information remains "0", the volume state change unit 110 increases the volume of the sound source to the maximum volume again in 1 second.
  • the state change unit 110 lowers the volume of the sound source to the minimum volume over 2 seconds.
  • the volume state changing unit 110 increases the volume state of the cheering sound from the initial value “0" to “half” over 1 second.
  • the volume change unit 111 increases the volume of the cheering sound from "minimum volume” to "half volume” over one second. If the volume likelihood information indicates "0" at time t2, the volume state changing unit 110 lowers the volume state of the cheering sound from "half" to "0” over two seconds. The volume change unit 111 lowers the volume of the cheering sound from "half volume” to "minimum volume” over 2 seconds. If the volume likelihood information indicates "1" at time t3, the volume state changing unit 110 increases the volume state of the cheering sound from "0" to "half” over 1 second.
  • the volume change unit 111 increases the volume of the cheering sound from “minimum volume” to "half volume” over one second. If the volume likelihood information remains “1" at time t4, the volume state changing unit 110 increases the volume state of the cheering sound from “half” to “maximum” over one second. The volume change unit 111 increases the volume of the cheering sound from "half volume” to "maximum volume” over one second. If the volume likelihood information remains "1" at time t5, the volume state changing unit 110 maintains the cheer sound volume state "maximum”. The volume change unit 111 maintains the volume of the cheering sound at the "maximum volume”.
  • the volume state changing unit 110 lowers the volume state of the cheering sound from “maximum” to “half” over 2 seconds.
  • the volume change unit 111 lowers the volume of the cheering sound from "maximum volume” to "half volume” over 2 seconds. If the volume likelihood information remains “0" at time t7, the volume state changing unit 110 lowers the volume state of the cheering sound from "half" to "0” over two seconds. The volume change unit 111 lowers the volume of the cheering sound from "half volume” to "minimum volume” over 2 seconds. If the volume likelihood information remains at "0" at time t8, the volume state changing unit 110 maintains the volume state of the cheering sound at "0". The volume change unit 111 maintains the volume of the cheering sound at the "minimum volume”.
  • the volume state and the time required to change the volume are not limited to the above-mentioned time.
  • the volume state changing unit 110 may increase the volume state of the cheering sound from “minimum” to "half” over two seconds.
  • the volume change unit 111 may increase the volume of the cheering sound from "minimum volume” to "half volume” over two seconds.
  • the volume change unit 111 may set the time required to change the volume regardless of the time required for the volume state change unit 110 to change the volume state.
  • the volume state and the time required to change the volume may be set depending on the type of event or the like.
  • processing procedure described below is only an example, and each process may be changed as much as possible. Further, regarding the processing procedure described below, steps can be omitted, replaced, or added as appropriate depending on the embodiment.
  • FIG. 6 is a flowchart showing an example of the playback volume control procedure and processing contents of the server 1 according to the first embodiment.
  • the volume likelihood information and the playback sound source are input, and the playback sound is output. It is assumed that the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • the reproduced sound is reproduced via the audio output device 101, for example.
  • the sound source reproduction unit 112 obtains a reproduced sound source (step S1).
  • step S1 for example, the sound source reproduction unit 112 acquires the cheering sound of the remote audience from the audience terminals 2 to 2n.
  • the volume state changing unit 110 sets an initial value to the volume state of the reproduced sound source (step S2).
  • step S2 for example, the volume state changing unit 110 sets the volume state of the cheering sound to "minimum".
  • the volume change unit 111 initializes the volume of the reproduced sound source based on the volume state being initialized by the volume state change unit 110. For example, the volume change unit 111 sets the volume of the cheering sound to the "minimum volume”.
  • the volume state storage unit 130 stores the volume state set by the volume state change unit 110.
  • the volume state storage unit 130 updates the volume state every time the volume state is set by the volume state change unit 110.
  • the sound source reproduction unit 112 reproduces the reproduced sound source based on the initial volume (step S3).
  • step S3 for example, the sound source reproduction unit 112 reproduces the cheering sound at the minimum volume.
  • the volume state change unit 110 determines whether volume likelihood information has been acquired (step S4).
  • the volume likelihood information may be set in advance, or may be input as appropriate by an administrator or the like.
  • the volume likelihood information may be calculated by the control unit 11. If the volume state change unit 110 determines that volume likelihood information has been acquired (step S4: YES), the process transitions from step S4 to step S5. If the volume state change unit 110 determines that volume likelihood information has not been acquired (step S4: NO), the process repeats step S4.
  • the volume state changing unit 110 updates the volume state of the sound source based on the acquired volume likelihood information (step S5).
  • step S5 for example, the volume state changing unit 110 updates the volume state of the cheering sound based on the volume likelihood information.
  • the volume likelihood information is "0”
  • the volume state changing unit 110 maintains the volume state of the cheering sound at "minimum”.
  • the volume likelihood information is "1”
  • the volume state changing unit 110 changes the volume state of the cheering sound from "minimum” to "half”.
  • the volume state storage unit 130 stores the volume state updated by the volume state change unit 110.
  • the volume state storage unit 130 updates the volume state every time the volume state is updated by the volume state change unit 110.
  • the volume state changing unit 110 determines whether the volume state of the sound source has been changed (step S6). If the volume state changing unit 110 determines that the volume state has been changed (step S6: YES), the process transitions from step S6 to step S7. If the volume state changing unit 110 determines that the volume state has not been changed (step S6: NO), the process transitions from step S6 to step S4.
  • the volume change unit 111 changes the volume of the sound source based on the volume state (step S7).
  • step S7 for example, the volume change unit 111 acquires the volume state of the cheering sound from the volume state storage unit 130.
  • the volume change unit 111 changes the volume of the cheering sound based on the acquired volume state. For example, when the volume state of the cheering sound is "half", the volume changing unit 111 changes the volume of the cheering sound to "half volume”. In this example, the volume changing unit 111 changes the volume of the cheering sound from "minimum volume” to "half volume” over about one second.
  • the volume state changing unit 110 determines whether all sound source states have been processed (step S8). If the volume state changing unit 110 determines that all sound source states have been processed (step S8: YES), the process ends. If the volume state changing unit 110 determines that all sound source states have not been processed (step S8: NO), the process transitions from step S6 to step S4.
  • step S4 the volume state change unit 110 acquires volume likelihood information, and assume that the volume likelihood information is "0".
  • the volume state changing unit 110 changes the volume state of the cheering sound to "minimum” in step S5.
  • the volume change unit 111 changes the volume of the cheering sound to the "minimum volume” based on the volume state. In this example, the volume changing unit 111 changes the volume of the cheering sound from "half volume” to "minimum volume” over about two seconds.
  • the time point t3 shown in FIG. 5 will be explained as an example. It is assumed that the volume of the cheering sound is the "minimum volume” at time t3.
  • the volume state change unit 110 acquires volume likelihood information, and assume that the volume likelihood information is "1".
  • the volume state changing unit 110 changes the volume state of the cheering sound to "half” in step S5.
  • the volume change unit 111 changes the volume of the cheering sound to "half volume” based on the volume state. In this example, the volume changing unit 111 changes the volume of the cheering sound from "minimum volume” to "half volume” over about one second.
  • FIG. 7 is a flowchart showing an example of a playback volume control procedure and processing contents of the server 1 according to the first embodiment. Below, a process of reproducing the reproduced sound in step S3 of FIG. 6 and changing the volume of the reproduced sound based on the volume likelihood information will be described. It is assumed that the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • the sound source reproduction unit 112 reproduces the reproduced sound source (step S11).
  • step S11 for example, the sound source reproduction unit 112 reproduces a cheering sound based on the initial volume.
  • the volume change unit 111 determines whether the reproduced sound has reached the end (step S12). If the volume change unit 111 determines that the reproduced sound has reached the end (step S12: YES), the process ends. If the volume change unit 111 determines that the reproduced sound has not reached the end (step S12: NO), the process transitions from step S12 to step S13.
  • the volume state changing unit 110 determines whether the volume likelihood information indicates "1" (step S13). If the volume state change unit 110 determines that the volume likelihood information indicates "1" (step S13: YES), the process transitions from step S13 to step S14. If the volume state change unit 110 determines that the volume likelihood information does not indicate "1" (step S13: NO), the process transitions from step S13 to step S15.
  • the volume change unit 111 increases the volume of the reproduced sound source (step S14).
  • step S14 for example, the volume state changing unit 110 changes the audio state based on the volume likelihood information "1".
  • the volume state changing unit 110 changes the audio state from "minimum” to "half”.
  • the volume state changing unit 110 stores the volume state in the volume state storage unit 130.
  • the volume change unit 111 increases the volume of the cheering sound based on the volume state stored in the volume state storage unit 130. For example, the volume changing unit 111 increases the volume of the cheering sound from "minimum volume” to "half volume.”
  • the volume changing unit 111 lowers the volume of the reproduced sound source (step S15).
  • step S15 for example, the volume state changing unit 110 changes the audio state based on the volume likelihood information "0". A case where the volume state of the reproduced sound source is "half" will be explained.
  • the volume state changing unit 110 changes the audio state from "half" to "minimum”.
  • the volume state changing unit 110 stores the volume state in the volume state storage unit 130.
  • the volume change unit 111 lowers the volume of the cheering sound based on the volume state stored in the volume state storage unit 130.
  • the volume changing unit 111 increases the volume of the cheering sound from "half volume” to "minimum volume.” Note that when the volume state of the reproduced sound source is "minimum”, the volume state changing section 110 maintains the audio state at "minimum”, and the volume changing section 111 maintains the volume of the cheering sound at "minimum volume”. It's okay.
  • FIG. 8 is a flowchart showing a specific example of the playback volume control procedure and processing contents of the server 1 according to the first embodiment. Below, a process of reproducing the reproduced sound in step S3 of FIG. 6 and changing the volume of the reproduced sound based on the volume likelihood information will be described. It is assumed that the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • the sound source reproduction unit 112 reproduces the reproduced sound source (step S101).
  • step S101 for example, similarly to step S1, the sound source reproduction unit 112 reproduces cheering sound based on the initial volume.
  • the volume change unit 111 determines whether the reproduced sound has reached the end (step S102). If the volume change unit 111 determines that the reproduced sound has reached the end (step S102: YES), the process ends. If the volume change unit 111 determines that the reproduced sound has not reached the end (step S102: NO), the process transitions from step S102 to step S103.
  • the volume state changing unit 110 determines whether the reproduced sound matches the cheering sound as a result of the sound search (step S103). If the volume state changing unit 110 determines that the reproduced sound hits the cheering sound (step S103: YES), the process transitions from step S103 to step S104. If the volume state changing unit 110 determines that the reproduced sound does not hit the cheering sound (step S103: NO), the process transitions from step S103 to step S105.
  • the volume change unit 111 increases the volume of the reproduced sound source (step S104).
  • step S104 for example, the volume state changing unit 110 changes the audio state.
  • the volume state changing unit 110 sets the audio state to half the maximum volume.
  • the volume state changing unit 110 stores the volume state in the volume state storage unit 130.
  • the volume change unit 111 increases the volume of the cheering sound based on the volume state stored in the volume state storage unit 130. For example, the volume changing unit 111 increases the volume of the cheering sound to a volume that is half the maximum volume over one second.
  • the volume changing unit 111 lowers the volume of the reproduced sound source (step S105).
  • step S105 for example, the volume state changing unit 110 changes the audio state.
  • the volume state changing unit 110 sets the audio state to a state where the volume is lowered by half of the maximum volume.
  • the volume state changing unit 110 stores the volume state in the volume state storage unit 130.
  • the volume change unit 111 lowers the volume of the cheering sound based on the volume state stored in the volume state storage unit 130. For example, the volume change unit 111 reduces the volume of the cheering sound to a volume that is half the maximum volume over 2 seconds.
  • FIG. 9 is a block diagram showing an example of the software configuration of the server 1 configuring the playback volume control system according to a modification of the first embodiment.
  • a volume limit is set to prevent cheering sounds from becoming louder when a quiet performance is desired.
  • a function is provided to force a fade-in by controlling only a volume increase without accepting a decrease in volume, and a function to force a fade-out by controlling only a decrease in volume without accepting a volume increase.
  • the server 1 includes a volume state change section 110, a volume change section 111, a sound source playback section 112, a volume increase/decrease restriction section 113, and a volume state storage section 130.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the volume state storage unit 130 is realized by the data storage unit 13.
  • the volume increase/decrease restriction unit 113 acquires vertical movement suppression necessity information indicating whether to suppress vertical movement of the volume of the reproduced sound source.
  • the vertical motion suppression necessity information may include a fade-in instruction or a fade-out instruction.
  • the volume increase/decrease restriction unit 113 controls the vertical movement of the volume of the reproduced sound source based on the vertical movement suppression necessity information.
  • FIG. 10 is a flowchart showing an example of the playback volume control procedure and processing contents of the server 1 when performing fade-in control.
  • the volume increase/decrease restriction unit 113 does not accept a decrease in volume, but only controls an increase in volume.
  • the sound source reproduction unit 112 reproduces the reproduced sound source similarly to step S11 (step S21).
  • step S12 the volume changing unit 111 determines whether the reproduced sound has reached the end (step S22). If the volume change unit 111 determines that the reproduced sound has reached the end (step S22: YES), the process ends. If the volume change unit 111 determines that the reproduced sound has not reached the end (step S22: NO), the process transitions from step S22 to step S23.
  • step S23 the volume state changing unit 110 determines whether the volume likelihood information indicates "1" (step S23). If the volume state change unit 110 determines that the volume likelihood information indicates "1" (step S23: YES), the process transitions from step S23 to step S24. If the volume state change unit 110 determines that the volume likelihood information does not indicate "1" (step S23: NO), the process transitions from step S23 to step S21.
  • the volume changing unit 111 increases the volume of the reproduced sound source (step S24), similarly to step S14. Note that when the volume state of the reproduced sound source is "maximum”, the volume state changing section 110 maintains the audio state at "maximum”, and the volume changing section 111 maintains the volume of the cheering sound at "maximum volume”. It's okay.
  • FIG. 11 is a flowchart showing an example of the playback volume control procedure and processing contents of the server 1 when performing fade-out control.
  • the volume increase/decrease restriction unit 113 does not accept increases in volume, but only controls decreases in volume.
  • the sound source reproduction unit 112 reproduces the reproduced sound source similarly to step S11 (step S31).
  • step S32 determines whether the reproduced sound has reached the end (step S32). If the volume change unit 111 determines that the reproduced sound has reached the end (step S32: YES), the process ends. If the volume change unit 111 determines that the reproduced sound has not reached the end (step S32: NO), the process transitions from step S32 to step S33.
  • step S33 the volume state changing unit 110 determines whether the volume likelihood information indicates "1" (step S33). If the volume state change unit 110 determines that the volume likelihood information indicates "1" (step S33: YES), the process transitions from step S33 to step S31. If the volume state changing unit 110 determines that the volume likelihood information does not indicate "1" (step S33: NO), the process transitions from step S33 to step S34.
  • the volume change unit 111 lowers the volume of the reproduced sound source (step S34), similarly to step S15. Note that when the volume state of the reproduced sound source is "minimum”, the volume state changing section 110 maintains the audio state at "minimum”, and the volume changing section 111 maintains the volume of the cheering sound at "minimum volume”. It's okay.
  • the second embodiment is an embodiment in which a reference video feature linked to the likelihood is prepared in advance, and the likelihood of excitement at each time is determined by repeatedly comparing it with the video feature extracted from the input video. be.
  • the likelihood includes a rising likelihood.
  • the server 1 uses the likelihood of excitement to control the playback volume.
  • the second embodiment is the same as the first embodiment except for the process of determining the likelihood of rising, so the description thereof will be omitted.
  • the likelihood of excitement is an example of volume likelihood information.
  • FIG. 12 is a block diagram showing an example of the software configuration of the server 1 that constitutes the playback volume control system according to the second embodiment.
  • the server 1 includes a volume state change unit 110, a volume change unit 111, a sound source playback unit 112, an input video feature extraction unit 114, a reference video feature storage unit 115, a likelihood calculation unit 116, and a volume state storage unit 130.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the volume state storage unit 130 is realized by the data storage unit 13.
  • the input video feature extraction unit 114 extracts input video features from the input video.
  • the input video includes, for example, a 5 ⁇ 5 matrix video as shown in FIG.
  • the input video includes, for example, multiple remote audience videos.
  • the input video may include a video of a crowd at an event venue, as shown in FIG.
  • Input video features are features found in the input video.
  • Input video features include, for example, human movements, objects, human facial expressions, etc. included in the input video.
  • the input image characteristics include human movements such as waving a penlight, lifting a towel, raising a hand, and waving a hand from side to side.
  • Input video features may include objects such as penlights, towels, etc.
  • Input video features may include human facial expressions such as smiling faces, crying faces, etc.
  • Input video features may be used to determine the excitement of an event. For example, the movement of waving a penlight indicates excitement.
  • the reference video feature storage unit 115 stores reference features extracted from videos linked to the playback sound source in advance. For example, a case where the reproduced sound source is a cheering sound will be explained.
  • the reference video feature storage unit 115 extracts reference features from the reference video linked in advance to the cheering sound.
  • the reference video is, for example, a video of the audience.
  • the images of the audience include images of the audience being excited, images of the audience not being excited, and the like. If the reproduced sound source is the cheering sound of a remote audience, the reference video may be a video of the remote audience.
  • Reference features are features found in the reference video.
  • the reference features include reference video features.
  • the reference video features include, for example, human movements, objects, human facial expressions, etc. included in the reference video.
  • the reference image features include human movements such as waving a penlight, lifting a towel, raising a hand, and waving a hand from side to side.
  • Reference video features may include objects such as penlights, towels, etc.
  • the reference video features may include human facial expressions such as smiling faces and crying faces.
  • Reference video features may be used to determine the excitement of an event. For example, a reference video feature that shows a motion of shaking a penlight indicates excitement.
  • a reference video feature of a lively audience video is, for example, a movement of waving a penlight.
  • a reference image characteristic of the image of the audience who is not excited is, for example, that the audience does not have a penlight.
  • the reference video feature is linked to the likelihood.
  • the likelihood includes, for example, a rise likelihood that indicates the degree of rise.
  • the likelihood of excitement is, for example, a numerical value such as "0" or "1".
  • an upsurge likelihood of "0" indicates a state where there is no upsurge.
  • An upsurge likelihood of "1" indicates a state where there is an upsurge.
  • the reference video feature of a video of an excited audience is associated with the likelihood of excitement being "1".
  • the reference video feature of the video of the audience with no excitement is associated with the excitement likelihood of "0".
  • the reference video feature storage unit 115 is an example of a reference feature storage unit.
  • the volume state changing unit 110 compares the input video feature with the reference video feature.
  • the volume state changing unit 110 changes the volume state of the sound source based on the likelihood of excitement calculated by a likelihood calculation unit 116, which will be described later.
  • the likelihood calculation unit 116 calculates the distance or similarity between the input video feature and the reference video feature as a likelihood based on the result of matching the input video feature and the reference video feature.
  • the likelihood includes, for example, the likelihood of rising. If the distance between the input video feature and the reference video feature is close, the likelihood calculation unit 116 may calculate the likelihood of excitement as "1". When the distance between the input video feature and the reference video feature is long, the likelihood calculation unit 116 may calculate the likelihood of excitement as "0".
  • the likelihood calculation unit 116 may determine whether the distance between the input video feature and the reference video feature is close or far based on a predetermined threshold. When the similarity between the input video feature and the reference video feature is high, the likelihood calculation unit 116 may calculate the likelihood of excitement as "1".
  • the likelihood calculation unit 116 may calculate the likelihood of excitement as "0".
  • the likelihood calculation unit 116 may determine whether the degree of similarity between the input video feature and the reference video feature is high or low based on a predetermined threshold.
  • the likelihood calculation unit 116 may use a known matching method based on video features to match the input video features and the reference video features.
  • the likelihood calculation unit 116 repeatedly matches the input video feature and the reference video feature to determine the likelihood of excitement at each time.
  • the likelihood calculation unit 116 calculates a rising likelihood corresponding to the closest reference feature or the reference feature with the highest similarity based on the result of matching the input video feature and the reference feature linked to the likelihood. Output.
  • FIG. 13 is a flowchart showing an example of the likelihood determination procedure and processing contents of the server 1 according to the second embodiment.
  • the input video, reference video features, and playback sound source are input, and the playback sound is output.
  • the input video is a remote audience video obtained from the spectator terminals 2 to 2n.
  • the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • reference video features reference video features of a video of an excited audience and reference video features of a video of an audience without excitement are input.
  • the reference video feature of the excited audience video is associated with the excitement likelihood of "1".
  • the reference video feature of the video of the audience with no excitement is associated with the excitement likelihood of "0".
  • a reference video feature of a video of an excited audience is the movement of waving a penlight.
  • the input video feature extraction unit 114 extracts input video features from the input video (step S41).
  • a case where the input video is a video of a remote audience waving a penlight will be explained.
  • the input video feature extraction unit 114 extracts the input video feature of waving a penlight from the input video.
  • the volume state change unit 110 acquires the reference feature accumulated by the reference video feature accumulation unit 115 (step S42).
  • step S42 for example, the volume state changing unit 110 acquires the reference video feature of the video of the audience without excitement and the reference video feature of the video of the audience with excitement.
  • the volume state changing unit 110 compares the input video feature with the reference video feature.
  • the likelihood calculation unit 116 determines the likelihood of excitement based on the result of matching the input video feature and the reference video feature (step S43). In step S43, for example, the likelihood calculation unit 116 calculates the distance or similarity between the input video feature and the reference video feature as a rising likelihood.
  • the control unit 11 repeats the processing of steps S41 to S43 and determines the likelihood of excitement at each time.
  • the third embodiment is an embodiment in which a reference sound feature linked to the likelihood is prepared in advance, and the likelihood of excitement at each time is determined by repeatedly comparing it with the video feature extracted from the input video. be.
  • the server 1 uses the likelihood of excitement to control the playback volume.
  • the third embodiment is similar to the first embodiment except for the process of determining the likelihood of rising, so the description thereof will be omitted.
  • FIG. 14 is a block diagram showing an example of the software configuration of the server 1 that constitutes the playback volume control system according to the third embodiment.
  • the server 1 includes a volume state change unit 110, a volume change unit 111, a sound source playback unit 112, an input video feature extraction unit 114, a reference sound feature storage unit 117, a likelihood calculation unit 116, and a volume state storage unit 130.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the volume state storage unit 130 is realized by the data storage unit 13.
  • the reference sound feature storage unit 117 stores reference features extracted from sounds linked to the reproduction sound source in advance. For example, a case where the reproduced sound source is a cheering sound will be explained.
  • the reference sound feature storage unit 117 extracts reference features from reference sounds linked in advance to cheering sounds.
  • the reference sound is, for example, the sound of the audience.
  • the sound of the audience is, for example, the sound of cheers.
  • Audience sounds include excited audience sounds, unexcited audience sounds, and the like. If the reproduced sound source is the cheering sound of the remote audience, the reference sound may be the sound of the remote audience.
  • Reference features are features found in the reference sound.
  • the reference features include reference sound features.
  • the reference sound features include, for example, people's cheers, speaking voices, surrounding sounds, etc. included in the reference sound.
  • Reference sound features may be used to determine the excitement of an event. For example, a reference sound feature indicating loud cheers indicates excitement.
  • the reference sound characteristic of the excited audience sound is, for example, loud cheers.
  • a reference sound characteristic of the audience sound without excitement is, for example, the absence of cheering sounds. Note that the reference sound feature may be extracted from the reference video.
  • the reference sound feature is linked to the likelihood.
  • the likelihood includes, for example, the likelihood of rising.
  • the reference sound feature of a lively audience sound is associated with a lively likelihood of "1".
  • the reference sound feature of the audience's sound without excitement is associated with the excitement likelihood of "0".
  • the reference sound feature storage section 117 is an example of a reference feature storage section.
  • the volume state changing unit 110 compares the input video feature and the reference sound feature.
  • the volume state changing unit 110 changes the volume state of the sound source based on the likelihood of excitement calculated by a likelihood calculation unit 116, which will be described later.
  • the volume state changing unit 110 may match the input video feature and the reference sound feature using a known video feature-based matching method.
  • the likelihood calculation unit 116 calculates the distance or similarity between the input video feature and the reference sound feature as a likelihood based on the result of matching the input video feature and the reference sound feature.
  • the likelihood includes, for example, the likelihood of rising.
  • the likelihood calculation unit 116 may calculate the excitement likelihood as "1" when the distance between the input video feature and the reference sound feature is close. If the distance between the input video feature and the reference sound feature is long, the likelihood calculation unit 116 may calculate the excitement likelihood as "0".
  • the likelihood calculation unit 116 may determine whether the distance between the input video feature and the reference sound feature is close or far based on a predetermined threshold. When the similarity between the input video feature and the reference sound feature is high, the likelihood calculation unit 116 may calculate the excitement likelihood as "1".
  • the likelihood calculation unit 116 may calculate the excitement likelihood as "0".
  • the likelihood calculation unit 116 may determine whether the degree of similarity between the input video feature and the reference sound feature is high or low based on a predetermined threshold.
  • the likelihood calculation unit 116 repeatedly matches the input video feature and the reference sound feature to determine the likelihood of excitement at each time.
  • the likelihood calculation unit 116 calculates a rising likelihood corresponding to the closest reference feature or the reference feature with the highest similarity based on the result of matching the input video feature and the reference feature linked to the likelihood. Output.
  • FIG. 15 is a flowchart illustrating an example of the likelihood determination procedure and processing contents of the server 1 according to the third embodiment.
  • the input video, reference video features, and playback sound source are input, and the playback sound is output.
  • the input video is a remote audience video obtained from the spectator terminals 2 to 2n.
  • the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • the reference sound features reference sound features of the audience's sound with excitement and reference sound features of the audience's sound with no excitement are input.
  • the reference sound feature of the excited audience sound is associated with the excitement likelihood of "1".
  • the reference sound feature of the audience's sound without excitement is associated with the excitement likelihood of "0".
  • the reference sound characteristic of a video of an excited audience is loud cheers.
  • the input video feature extraction unit 114 extracts input video features from the input video similarly to step S41 (step S51).
  • the volume state changing unit 110 acquires the reference feature accumulated by the reference video feature accumulation unit 115 (step S52). In step S52, for example, the volume state changing unit 110 acquires the reference sound feature of the audience's sound without excitement and the reference sound feature of the audience's sound with excitement. The volume state changing unit 110 compares the input video feature and the reference sound feature.
  • the likelihood calculation unit 116 determines the likelihood of excitement based on the result of matching the input video feature and the reference sound feature (step S53). In step S53, for example, the likelihood calculation unit 116 calculates the distance or similarity between the input video feature and the reference sound feature as the likelihood of excitement.
  • the control unit 11 repeats the processing of steps S41 to S43 and determines the likelihood of excitement at each time.
  • a reference video feature and a reference sound feature linked to the likelihood are prepared in advance, and the likelihood of excitement at each time is determined by repeatedly comparing the video features with the video feature extracted from the input video.
  • redundancy is achieved by performing both a video search and a sound search.
  • the server 1 uses the likelihood of excitement to control the playback volume.
  • the fourth embodiment is similar to the first embodiment except for the process of determining the likelihood of rising, so the description thereof will be omitted.
  • FIG. 16 is a block diagram showing an example of the software configuration of the server 1 configuring the playback volume control system according to the fourth embodiment.
  • the server 1 includes a volume state change section 110, a volume change section 111, a sound source playback section 112, an input video feature extraction section 114, a reference video feature storage section 115, a reference sound feature storage section 117, a likelihood calculation section 116, and a volume state change section 110.
  • a storage unit 130 is provided. Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the volume state storage unit 130 is realized by the data storage unit 13.
  • the volume state changing unit 110 compares the input video feature with the reference video feature.
  • the volume state changing unit 110 compares the input video feature and the reference sound feature.
  • the volume state changing unit 110 changes the volume state of the sound source based on the likelihood of excitement calculated by a likelihood calculation unit 116, which will be described later.
  • the likelihood calculation unit 116 calculates the distance or similarity between the input video feature and the reference feature based on the results of matching the input video feature and the reference video feature and the result of matching the input video feature and the reference sound feature. is calculated as the likelihood.
  • the likelihood includes, for example, the likelihood of rising.
  • the likelihood calculation unit 116 calculates the larger of the likelihoods of excitement obtained from the results of matching the input video features and reference video features and the results of matching the input video features and reference sound features as the likelihood of excitement. You may.
  • the likelihood calculation unit 116 repeatedly matches the input video feature and the reference feature to determine the likelihood of excitement at each time.
  • the likelihood calculation unit 116 calculates a rising likelihood corresponding to the closest reference feature or the reference feature with the highest similarity based on the result of matching the input video feature and the reference feature linked to the likelihood. Output.
  • FIG. 17 is a flowchart illustrating an example of the likelihood determination procedure and processing contents of the server 1 according to the fourth embodiment.
  • the input video, reference video features, reference sound features, and playback sound source are input, and the playback sound is output.
  • the input video is a remote audience video obtained from the spectator terminals 2 to 2n.
  • the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • reference video features reference video features of a video of an excited audience and reference video features of a video of an audience without excitement are input.
  • the reference video feature of the excited audience video is associated with the excitement likelihood of "1".
  • the reference video feature of the video of the audience with no excitement is associated with the excitement likelihood of "0".
  • a reference video feature of a video of an excited audience is the movement of waving a penlight.
  • reference sound features reference sound features of the audience's sound with excitement and reference sound features of the audience's sound with no excitement are input.
  • the reference sound feature of the excited audience sound is associated with the excitement likelihood of "1".
  • the reference sound feature of the audience's sound without excitement is associated with the excitement likelihood of "0".
  • the reference sound characteristic of a video of an excited audience is loud cheers.
  • the input video feature extraction unit 114 extracts input video features from the input video similarly to step S41 (step S61).
  • the volume state changing unit 110 acquires the reference feature accumulated by the reference video feature accumulation unit 115 (step S62).
  • step S62 for example, the volume state changing unit 110 acquires a reference video feature of a video of an audience that is not excited and a reference video feature of a video of an audience that is excited.
  • the volume state changing unit 110 acquires reference sound characteristics of the audience's sound without excitement and reference sound characteristics of the audience's sound with excitement.
  • the volume state changing unit 110 compares the input video feature with the reference video feature.
  • the volume state changing unit 110 compares the input video feature and the reference sound feature.
  • the likelihood calculation unit 116 determines the likelihood of excitement based on the result of matching the input video feature and the reference feature (step S63).
  • step S63 for example, the likelihood calculation unit 116 calculates the distance or similarity between the input video feature and the reference video feature as the rising likelihood, similarly to step S42. Similar to step S53, the likelihood calculation unit 116 calculates the distance or similarity between the example input video feature and the reference sound feature as an upsurge likelihood.
  • the likelihood calculation unit 116 calculates the likelihood of excitement calculated based on the result of matching the input video feature and the reference video feature, and the likelihood of excitement calculated based on the result of matching the input video feature and the reference sound feature. Of these, the larger one may be determined as the likelihood of excitement.
  • the control unit 11 repeats the processing of steps S61 to S63 and determines the likelihood of excitement at each time.
  • FIG. 18 is a diagram illustrating an example of a method of photographing a video at an event venue according to the embodiment.
  • a camera installed inside the event venue photographs the crowd inside the venue.
  • an image of the crowd as shown in FIG. 4 is captured by a camera in the venue.
  • cameras in the venue are installed on the stage side of the venue, and are installed to take pictures of the audience seats.
  • the number of cameras in the venue is not limited to one, and a plurality of cameras may be installed.
  • the crowd image may be an image selected from images captured by at least one camera.
  • the server 1 changes the volume state of the sound source based on the volume likelihood information, stores the volume state, changes the volume of the sound source based on the volume state, and plays the sound source at the changed volume. can do. Therefore, the server 1 can reproduce the sound source at a volume corresponding to the volume likelihood information. Thereby, the server 1 can reproduce the selected sound source at a volume corresponding to a desired effect at an event venue or the like. In this way, the server 1 can control the volume and reproduce the sound related to the video.
  • the server 1 extracts input video features from the input video, and stores reference features including reference sound features or reference video features extracted from at least one of the video or sound associated with the sound source in advance. can do. Furthermore, the server 1 can match the input video feature with at least one of the reference sound feature or the reference video feature. Furthermore, the server 1 can calculate distance or similarity as likelihood based on the result of matching. Therefore, the server 1 can change the volume of the sound source based on the likelihood obtained by comparing the input video feature with at least one of the reference sound feature and the reference video feature, and play the sound source at the changed volume. can. Thereby, the server 1 can change the volume of the sound source based on the likelihood linked to the reference feature associated with the input video. In this way, the server 1 can control and reproduce the sound related to the video at a volume that matches the characteristics of the video.
  • the server 1 selects the likelihood corresponding to the closest reference feature or the reference feature with the highest degree of similarity based on the result of matching the input video feature and the reference feature associated with the likelihood. It is possible to output degrees. Therefore, the server 1 can change the volume of the sound source based on the likelihood linked to the reference feature most related to the input video. In this way, the server 1 can control and reproduce the sound related to the video at a volume that is more suited to the characteristics of the video.
  • the reference feature of sound or video linked to the likelihood is used for likelihood determination, and the reference feature closest to the input video feature is used.
  • the likelihood corresponds to
  • the distance or similarity between the input video feature and the reference feature may be used as the likelihood.
  • the playback volume control device may be realized by one device as described in the above example, or may be realized by a plurality of devices with distributed functions.
  • the program may be transferred while being stored in the electronic device, or may be transferred without being stored in the electronic device. In the latter case, the program may be transferred via a network or may be transferred while being recorded on a recording medium.
  • the recording medium is a non-transitory tangible medium.
  • the recording medium is a computer readable medium.
  • the recording medium may be any medium capable of storing a program and readable by a computer, such as a CD-ROM or a memory card, and its form is not limited.
  • the present invention is not limited to the above-described embodiments as they are, but can be embodied by modifying the constituent elements at the implementation stage without departing from the spirit of the invention.
  • various inventions can be formed by appropriately combining the plurality of components disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiments. Furthermore, components from different embodiments may be combined as appropriate.
  • the embodiments described above may be applied not only to electronic devices but also to methods performed by electronic devices.
  • the above-described embodiments may be applied to a program that allows a computer to execute the processing of each part of an electronic device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一実施形態では、再生音量制御方法は、音量尤度情報に基づいて音源の音量状態を変更する音量状態変更過程と、前記音量状態を記憶する音量状態記憶過程と、前記音量状態に基づいて前記音源の音量を変更する音量変更過程と、前記音源を前記音量で再生する音源再生過程と、を備える。

Description

再生音量制御方法、再生音量制御装置及び再生音量制御プログラム
 この発明の一態様は、再生音量制御方法、再生音量制御装置及び再生音量制御プログラムに関する。
 近年、ある地点で撮影・収録された映像・音声をデジタル化してIP(Internet Protocol)ネットワーク等の通信回線を介して遠隔地にリアルタイム伝送し、遠隔地で映像・音声を再生する映像・音声再生装置が用いられるようになってきた。例えば、音楽ライブの会場で行われている音楽ライブの映像・音声や、競技会場で行われているスポーツ競技試合の映像・音声を遠隔地にリアルタイム伝送するオンラインライブやパブリックビューイング等が盛んに行われている。このような映像・音声の伝送は1対1の一方向伝送にとどまらない。音楽ライブが行われている会場(以下、イベント会場とする)から映像・音声を複数の遠隔地に伝送し、それら複数の遠隔地でもそれぞれ観客がライブを楽しんでいる映像や歓声等の音声を撮影・収録し、それらの映像・音声をイベント会場や他の遠隔地に伝送し、各拠点において大型映像表示装置やスピーカから出力する、というような双方向伝送も行なわれている。
 このような双方向での映像・音声の伝送においては、音楽ライブ等の映像を遠隔地で楽しんでいる顧客が、イベント会場へ接続し、声援を送りたい場合、音をそのままイベント会場内で流すことは難しい。なぜなら、遠隔地の視聴環境では、家庭でのノイズがあったり、音質が不明であったりすることが多いため、視聴環境においてマイクで取得した音をそのままイベント会場で流すと、イベント会場内での観客の視聴品質が損なわれる。
 そこで、クロスモーダル検索を使用して、映像から音を選択し、品質の良い音を再生することが考えられる(非特許文献1及び非特許文献2)。非特許文献1及び非特許文献2には、映像と関連する音特徴に基づいて、音を選択する方法が記載されている。
弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索、安田昌弘、大石康智、小泉悠馬、原田登、日本音響学会講演論文集、2020年9月 Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, and Noboru Harada. Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. Proc. Interspeech 2020, pp. 1446-1450, 2020.
 しかしながら,非特許文献1及び非特許文献2の方法は、映像と関連する音特徴に基づいて、音を選択する方法であり、音量を制御することは困難である。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、映像に関連する音を、音量を制御して再生する技術を提供することにある。
 この発明の一実施形態では、再生音量制御方法は、音量尤度情報に基づいて音源の音量状態を変更する音量状態変更過程と、前記音量状態を記憶する音量状態記憶過程と、前記音量状態に基づいて前記音源の音量を変更する音量変更過程と、前記音源を前記音量で再生する音源再生過程と、を備える。
 この発明の一態様によれば、映像に関連する音を、音量を制御して再生することができる。
図1は、第1の実施形態に係る再生音量制御システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。 図2は、第1の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図3は、第1の実施形態に係る遠隔地での観客の映像の一例を示す図である。 図4は、第1の実施形態に係るイベント会場での映像の一例を示す図である。 図5は、第1の実施形態に係る音量変化の一例を示す図である。 図6は、第1の実施形態に係るサーバの再生音量制御手順と処理内容の一例を示すフローチャートである。 図7は、第1の実施形態に係るサーバの再生音量制御手順と処理内容の一例を示すフローチャートである。 図8は、第1の実施形態に係るサーバの再生音量制御手順と処理内容の具体例を示すフローチャートである。 図9は、第1の実施形態の変形例に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図10は、第1の実施形態の変形例に係るサーバの再生音量制御手順と処理内容の一例を示すフローチャートである。 図11は、第1の実施形態の変形例に係るサーバの再生音量制御手順と処理内容の別の例を示すフローチャートである。 図12は、第2の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図13は、第2の実施形態に係るサーバの尤度決定手順と処理内容の一例を示すフローチャートである。 図14は、第3の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図15は、第3の実施形態に係るサーバの尤度決定手順と処理内容の一例を示すフローチャートである。 図16は、第4の実施形態に係る再生音量制御システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図17は、第4の実施形態に係るサーバの尤度決定手順と処理内容の一例を示すフローチャートである。 図18は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。
 以下、図面を参照してこの発明に係るいくつかの実施形態を説明する。 
 音楽ライブ会場等のイベント会場において、遠隔地でライブを視聴する観客(以下、リモート観客という)の映像の特徴を利用して歓声音を選択し、イベント会場において再生することを想定する。
 歓声音は、図3に示すようなリモート観客の映像の特徴を利用して再生するものとする。図3は、複数のリモート観客の映像を示す。図3は、複数のリモート観客がペンライトを使用して盛り上がっている状態を示す。例えば、図3に示すような、5×5のマトリックス状の入力映像の特徴を利用して歓声音を選択する。なお、図4に示すようなイベント会場の群衆の映像の特徴を利用して歓声音を選択してもよい。図4は、イベント会場の群衆がペンライトを使用して盛り上がっている状態を示す。この場合、イベント会場の群衆の映像の一部を切り出して入力映像として使用してもよいし、全体を入力映像として使用してもよい。
 図3及び図4に示すように、観客は、ペンライトのような特徴的なアイテムを持ち、通常時と比べて盛り上がっている時にアイテムを使用して盛り上がりを表現することが想定される。
 [第1の実施形態] 
 第1の実施形態は、イベント会場において、リモート観客の歓声音を再生する実施形態である。
 (構成例) 
 図1は、第1の実施形態に係る再生音量制御システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。 
 再生音量制御システムSは、サーバ1、音声出力装置101、映像出力装置102、複数の観客用端末2~2nを含む。サーバ1、音声出力装置101、映像出力装置102、複数の観客用端末2~2nは、IPネットワークを介して互いに通信可能である。
 サーバ1は、データを収集し、収集したデータを処理する電子機器である。電子機器は、コンピュータを含む。
 音声出力装置101は、音声を再生して出力するスピーカを含む装置である。音声出力装置101は、例えば、イベント会場において音声を出力する装置である。
 映像出力装置102は、映像を再生して表示するディスプレイを含む装置である。例えば、ディスプレイは、液晶ディスプレイである。映像出力装置102は、例えば、イベント会場において映像を再生して表示する装置である。
 観客用端末2~2nのそれぞれは、複数のリモート観客のそれぞれが使用する端末である。観客用端末2~2nのそれぞれは、入力機能、表示機能及び通信機能を備える電子機器である。例えば、観客用端末2~2nのそれぞれは、タブレット端末、スマートフォン、又はPC(Personal Computer)等であるが、これらに限定されない。観客用端末2は、端末の一例である。
 サーバ1の構成例について説明する。 
 サーバ1は、制御部11、プログラム記憶部12、データ記憶部13、通信インタフェース14及び入出力インタフェース15を備える。サーバ1が備える各要素は、バスを介して、互いに接続されている。
 制御部11は、サーバ1の中枢部分に相当する。制御部11は、中央処理ユニット(Central Processing Unit:CPU)等のプロセッサを備える。制御部11は、不揮発性のメモリ領域としてROM(Read Only Memory)を備える。制御部11は、揮発性のメモリ領域としてRAM(Random Access Memory)を備える。プロセッサは、ROM、又はプログラム記憶部12に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部11は、後述する各機能部を実現する。制御部11は、コンピュータを構成する。
 プログラム記憶部12は、記憶媒体としてHDD(Hard Disk Drive)、又はSSD(Solid State Drive)等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部12は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部12は、制御部11に実現される後述する各機能部による処理をサーバ1に実行させるプログラムを記憶する。プログラム記憶部12は、ストレージの一例である。
 データ記憶部13は、記憶媒体としてHDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部13は、ストレージ、又は記憶部の一例である。
 通信インタフェース14は、IPネットワークにより定義される通信プロトコルを使用して、サーバ1を他の電子機器と通信可能に接続する種々のインタフェースを含む。
 入出力インタフェース15は、サーバ1と音声出力装置101、映像出力装置102のそれぞれとの通信を可能にするインタフェースである。入出力インタフェース15は、有線通信のインタフェースを備えていてもいいし、無線通信のインタフェースを備えていてもよい。
 なお、サーバ1のハードウェア構成は、上述の構成に限定されるものではない。サーバ1は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。
 図2は、第1の実施形態に係る再生音量制御システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。
 サーバ1は、音量状態変更部110、音量変更部111、音源再生部112、及び音量状態記憶部130を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。音量状態記憶部130は、データ記憶部13によって実現される。
 音量状態変更部110は、取得された音量尤度情報に基づいて、音源の音量状態を変更する。音源は、観客用端末2~2nから取得される音源を含む。音源は、例えば、観客用端末2~2nから取得されるリモート観客の歓声音である。音源は、例えば、イベント会場において再生される再生音源である。再生音源は、単に音源ともいう。音量状態は、最小音量から最大音量までの何れかの状態を示す。最小音量は、例えば、無音状態を示す。音量状態は、例えば、「最小」、「半分」、「最大」等を含む。音量状態変更部110は、音量尤度状態を取得する。音量尤度状態は、音量尤度を数値で示すものである。音量尤度状態は、例えば、「0」又は「1」の値をとる。音量尤度状態は、初期値が「0」である。例えば、音量尤度状態が「0」である場合、音量は、最小音量である。音量の初期値は、最小音量である。音量状態変更部110は、音量尤度状態に基づいて、音量状態記憶部130に記憶された音量状態を更新する。音量状態を更新することは、音量状態を維持すること、音量状態を変更することを含む。音量状態を更新することは、音量状態に初期値を設定することを含む。初期値は、例えば、「最小」である。以下の説明において、「取得する」は、「入力する」、「読み込む」、「受信する」と読み替えてもよい。
 音量変更部111は、音量状態に基づいて音源の音量を変更する。音量変更部111は、予め再生する音源の音量を初期化する。音量変更部111は、例えば、音量として「0」を設定して音量を初期化する。音量変更部111は、音量状態記憶部130の音量状態に基づいて、音源の音量を変更する。音量は、「最小音量」、「半分の音量」、「最大音量」等を含む。最小音量は、「0」である。
 音源再生部112は、入力された音源を音量変更部111により変更された音量で再生する。音源再生部112は、再生音源を取得する。例えば、音源再生部112は、歓声音を再生音源として取得する。音源再生部112は、初期値の音量に基づいて、再生音源を再生する。
 音量状態記憶部130は、音量状態を記憶する。音量状態記憶部130は、音量状態変更部110により、音声状態が更新される毎に、音量状態を更新する。
 図5は、第1の実施形態に係る音量変化の一例を示す図である。 
 図5は、音量状態変更部110による音源の音量状態の変更と、音量状態の変更に基づく、音量変更部111による音源の音量の変更を概念的に表す図である。
 音源再生部112は、再生音源として観客用端末2~2nからリモート観客の歓声音を取得する場合を例に説明する。歓声音の音量状態が、初期値「0」に設定されていることを想定する。
 音量状態変更部110は、例えば、取得した音量尤度情報が「1」になった場合、音源の音量を半分の音量まで1秒かけて上げる。音源の音量が半分まで達したときに、音量尤度情報が「0」であれば、音量状態変更部110は、音源の音量を2秒かけて下げる。引き続き音量尤度状態が「1」のままである場合、音量状態変更部110は、音源の音量を1秒かけて最大音量まで上げる。音量尤度情報が「1」のまま持続している場合、音量状態変更部110は、最大音量を持続する。音量尤度情報が「0」になった場合、音量状態変更部110は、音源の音量を2秒かけて半分まで下げる。音量尤度情報が再び「1」になった場合、音量状態変更部110は、音源の音量を1秒かけて再び最大音量まで上げ、音量尤度情報が「0」のままである場合、音量状態変更部110は、音源の音量を2秒かけて最小音量まで下げる。
 例えば、t1の時点で音量尤度情報が「1」を示す場合、音量状態変更部110は、歓声音の音量状態を初期値「0」から「半分」まで1秒かけて上げる。音量変更部111は、歓声音の音量を「最小音量」から「半分の音量」まで1秒かけて上げる。t2の時点で音量尤度情報が「0」を示す場合、音量状態変更部110は、歓声音の音量状態を「半分」から「0」まで2秒かけて下げる。音量変更部111は、歓声音の音量を「半分の音量」から「最小音量」まで2秒かけて下げる。t3の時点で音量尤度情報が「1」を示す場合、音量状態変更部110は、歓声音の音量状態を「0」から「半分」まで1秒かけて上げる。音量変更部111は、歓声音の音量を「最小音量」から「半分の音量」まで1秒かけて上げる。t4の時点で音量尤度情報が「1」のままである場合、音量状態変更部110は、歓声音の音量状態を「半分」から「最大」まで1秒かけて上げる。音量変更部111は、歓声音の音量を「半分の音量」から「最大音量」まで1秒かけて上げる。t5の時点で音量尤度情報が「1」のままである場合、音量状態変更部110は、歓声音の音量状態「最大」を維持する。音量変更部111は、歓声音の音量を「最大音量」で維持する。t6の時点で音量尤度情報が「0」を示す場合、音量状態変更部110は、歓声音の音量状態を「最大」から「半分」まで2秒かけて下げる。音量変更部111は、歓声音の音量を「最大音量」から「半分の音量」まで2秒かけて下げる。t7の時点で音量尤度情報が「0」のままである場合、音量状態変更部110は、歓声音の音量状態を「半分」から「0」まで2秒かけて下げる。音量変更部111は、歓声音の音量を「半分の音量」から「最小音量」まで2秒かけて下げる。t8の時点で音量尤度情報が「0」のままである場合、音量状態変更部110は、歓声音の音量状態「0」を維持する。音量変更部111は、歓声音の音量を「最小音量」で維持する。
 なお、音量状態、及び音量の変更にかかる時間は、上述の時間に限られない。例えば、音量状態変更部110は、歓声音の音量状態を「最小」から「半分」まで2秒かけて上げてもよい。音量変更部111は、歓声音の音量を「最小音量」から「半分の音量」まで2秒かけて上げてもよい。音量変更部111は、音量状態変更部110による音量状態の変更に係る時間にかかわらず、音量の変更にかかる時間を設定してもよい。音量状態、及び音量の変更にかかる時間は、イベントの種類等により設定されてもよい。
 (動作例) 
 サーバ1による処理の手順について説明する。 
 なお、以下のサーバ1を主体とする説明では、サーバ1を制御部11と読み替えてもよい。
 なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
 図6は、第1の実施形態に係るサーバ1の再生音量制御手順と処理内容の一例を示すフローチャートである。
 以下の処理では、音量尤度情報、及び再生音源を入力とし、再生音を出力とする。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。再生音は、例えば、音声出力装置101を介して再生される。
 音源再生部112は、再生音源を取得する(ステップS1)。ステップS1では、例えば、音源再生部112は、観客用端末2~2nからリモート観客の歓声音を取得する。
 音量状態変更部110は、再生音源の音量状態に初期値を設定する(ステップS2)。ステップS2では、例えば、音量状態変更部110は、歓声音の音量状態に「最小」を設定する。音量変更部111は、音量状態変更部110により音量状態が初期化されたことに基づいて、再生音源の音量を初期化する。例えば、音量変更部111は、歓声音の音量を「最小音量」に設定する。音量状態記憶部130は、音量状態変更部110により設定された音量状態を記憶する。音量状態記憶部130は、音量状態変更部110により音量状態が設定される毎に音量状態を更新する。
 音源再生部112は、初期値の音量に基づいて、再生音源を再生する(ステップS3)。ステップS3では、例えば、音源再生部112は、歓声音を最小音量で再生する。
 音量状態変更部110は、音量尤度情報が取得されたか否かを判定する(ステップS4)。音量尤度情報は、予め設定されていてもよく、管理者等により適宜入力されてもよい。音量尤度情報は、制御部11により算出されてもよい。音量状態変更部110により、音量尤度情報が取得されたと判定された場合(ステップS4:YES)、処理は、ステップS4からステップS5へ遷移する。音量状態変更部110により、音量尤度情報が取得されていないと判定された場合(ステップS4:NO)、処理は、ステップS4を繰り返す。
 音量状態変更部110は、取得された音量尤度情報に基づいて、音源の音量状態を更新する(ステップS5)。ステップS5では、例えば、音量状態変更部110は、音量尤度情報に基づいて、歓声音の音量状態を更新する。音量状態変更部110は、音量尤度情報が「0」である場合、歓声音の音量状態を「最小」を維持する。音量状態変更部110は、音量尤度情報が「1」である場合、歓声音の音量状態を「最小」から「半分」に変更する。音量状態記憶部130は、音量状態変更部110により更新された音量状態を記憶する。音量状態記憶部130は、音量状態変更部110により音量状態が更新される毎に音量状態を更新する。
 音量状態変更部110は、音源の音量状態が変更されたか否かを判定する(ステップS6)。音量状態変更部110により、音量状態が変更されたと判定された場合(ステップS6:YES)、処理は、ステップS6からステップS7へ遷移する。音量状態変更部110により、音量状態が変更されていないと判定された場合(ステップS6:NO)、処理は、ステップS6からステップS4へ遷移する。
 音量変更部111は、音量状態に基づいて音源の音量を変更する(ステップS7)。ステップS7では、例えば、音量変更部111は、音量状態記憶部130から歓声音の音量状態を取得する。音量変更部111は、取得された音量状態に基づいて歓声音の音量を変更する。例えば、歓声音の音量状態が「半分」である場合、音量変更部111は、歓声音の音量を「半分の音量」に変更する。この例では、音量変更部111は、歓声音の音量を「最小音量」から「半分の音量」に約1秒かけて変更する。
 音量状態変更部110は、全ての音源状態が処理されたか否かを判定する(ステップS8)。音量状態変更部110により、全ての音源状態が処理されたと判定された場合(ステップS8:YES)、処理は、終了する。音量状態変更部110により、全ての音源状態が処理されていないと判定された場合(ステップS8:NO)、処理は、ステップS6からステップS4へ遷移する。
 図5に示すt2の時点を例に説明する。ステップS4において、音量状態変更部110により音量尤度情報が取得され、音量尤度情報が「0」であるとする。音量状態変更部110は、ステップS5において、歓声音の音量状態を「最小」に変更する。音量変更部111は、音量状態に基づいて、歓声音の音量を「最小音量」に変更する。この例では、音量変更部111は、歓声音の音量を「半分の音量」から「最小音量」に約2秒かけて変更する。
 図5に示すt3の時点を例に説明する。t3の時点において歓声音の音量は、「最小音量」であるとする。ステップS4において、音量状態変更部110により音量尤度情報が取得され、音量尤度情報が「1」であるとする。音量状態変更部110は、ステップS5において、歓声音の音量状態を「半分」に変更する。音量変更部111は、音量状態に基づいて、歓声音の音量を「半分の音量」に変更する。この例では、音量変更部111は、歓声音の音量を「最小音量」から「半分の音量」に約1秒かけて変更する。
 図7は、第1の実施形態に係るサーバ1の再生音量制御手順と処理内容の一例を示すフローチャートである。 
 以下では、図6のステップS3において再生音を再生し、音量尤度情報に基づいて、再生音の音量を変更する処理を説明する。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。
 音源再生部112は、再生音源を再生する(ステップS11)。ステップS11では、例えば、音源再生部112は、初期値の音量に基づいて、歓声音を再生する。
 音量変更部111は、再生音が終端に到着したか否かを判定する(ステップS12)。音量変更部111により、再生音が終端に到着したと判定された場合(ステップS12:YES)、処理は、終了する。音量変更部111により、再生音が終端に到着していないと判定された場合(ステップS12:NO)、処理は、ステップS12からステップS13へ遷移する。
 音量状態変更部110は、音量尤度情報が「1」を示すか否かを判定する(ステップS13)。音量状態変更部110により、音量尤度情報が「1」を示すと判定された場合(ステップS13:YES)、処理は、ステップS13からステップS14へ遷移する。音量状態変更部110により、音量尤度情報が「1」を示さないと判定された場合(ステップS13:NO)、処理は、ステップS13からステップS15へ遷移する。
 音量変更部111は、再生音源の音量を上げる(ステップS14)。ステップS14では、例えば、音量状態変更部110は、音量尤度情報「1」に基づいて、音声状態を変更する。音量状態変更部110は、音声状態を「最小」から「半分」に変更する。音量状態変更部110は、音量状態を音量状態記憶部130に保存する。音量変更部111は、音量状態記憶部130に保存された音量状態に基づいて、歓声音の音量を上げる。例えば、音量変更部111は、歓声音の音量を「最小音量」から「半分の音量」に上げる。
 音量変更部111は、再生音源の音量を下げる(ステップS15)。ステップS15では、例えば、音量状態変更部110は、音量尤度情報「0」に基づいて、音声状態を変更する。再生音源の音量状態が「半分」である場合について説明する。音量状態変更部110は、音声状態を「半分」から「最小」に変更する。音量状態変更部110は、音量状態を音量状態記憶部130に保存する。音量変更部111は、音量状態記憶部130に保存された音量状態に基づいて、歓声音の音量を下げる。例えば、音量変更部111は、歓声音の音量を「半分の音量」から「最小音量」に上げる。なお、再生音源の音量状態が「最小」である場合、音量状態変更部110は、音声状態を「最小」で維持し、音量変更部111は、歓声音の音量を「最小音量」で維持してもよい。
 図8は、第1の実施形態に係るサーバ1の再生音量制御手順と処理内容の具体例を示すフローチャートである 
 以下では、図6のステップS3において再生音を再生し、音量尤度情報に基づいて、再生音の音量を変更する処理を説明する。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。
 音源再生部112は、再生音源を再生する(ステップS101)。ステップS101では、例えば、ステップS1と同様に、音源再生部112は、初期値の音量に基づいて、歓声音を再生する。
 音量変更部111は、再生音が終端に到着したか否かを判定する(ステップS102)。音量変更部111により、再生音が終端に到着したと判定された場合(ステップS102:YES)、処理は、終了する。音量変更部111により、再生音が終端に到着していないと判定された場合(ステップS102:NO)、処理は、ステップS102からステップS103へ遷移する。
 音量状態変更部110は、音検索の結果、再生音が歓声音にヒットしたか否かを判定する(ステップS103)。音量状態変更部110により、再生音が歓声音にヒットしたと判定された場合(ステップS103:YES)、処理は、ステップS103からステップS104へ遷移する。音量状態変更部110により、再生音が歓声音にヒットしないと判定された場合(ステップS103:NO)、処理は、ステップS103からステップS105へ遷移する。
 音量変更部111は、再生音源の音量を上げる(ステップS104)。ステップS104では、例えば、音量状態変更部110は、音声状態を変更する。音量状態変更部110は、最大音量の半分の音量を上げた音声状態にする。音量状態変更部110は、音量状態を音量状態記憶部130に保存する。音量変更部111は、音量状態記憶部130に保存された音量状態に基づいて、歓声音の音量を上げる。例えば、音量変更部111は、1秒かけて歓声音の音量を最大音量の半分の音量を上げた音量に上げる。
 音量変更部111は、再生音源の音量を下げる(ステップS105)。ステップS105では、例えば、音量状態変更部110は、音声状態を変更する。音量状態変更部110は、最大音量の半分の音量を下げた音声状態にする。音量状態変更部110は、音量状態を音量状態記憶部130に保存する。音量変更部111は、音量状態記憶部130に保存された音量状態に基づいて、歓声音の音量を下げる。例えば、音量変更部111は、2秒かけて歓声音の音量を最大音量の半分の音量を下げた音量に下げる。
 [変形例] 
 図9は、第1の実施形態の変形例に係る再生音量制御システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。 
 以下の説明では、ライブの演出において、歓声音の音量を抑制したい場合を例に説明する。この例では、静かな演出にしたいとき等に、歓声音が大きくなることを避けるため、音量の制限を設ける。上述の音量決定のアルゴリズムにおいて、音量の下降を受け付けない音量の上昇のみの制御によりフェードインを強制する機能、音量の上昇を受け付けない音量の下降のみの制御によりフェードアウトを強制する機能を設ける。音量の上下動の抑制の要否を入力して制御できるようにすることで、実用上、予期せぬ音量にならないように制御することができる。
 変形例では、第1の実施形態と同様の構成については同一の符号を付し、その説明を省略する。変形例では、主として、第1の実施形態と異なる部分について説明する。
 サーバ1は、音量状態変更部110、音量変更部111、音源再生部112、音量上昇/下降制限部113及び音量状態記憶部130を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。音量状態記憶部130は、データ記憶部13によって実現される。
 音量上昇/下降制限部113は、再生音源の音量の上下動を抑制するか否かを示す上下動抑制要否情報を取得する。上下動抑制要否情報は、フェードイン指示又はフェードアウト指示を含んでもよい。音量上昇/下降制限部113は、上下動抑制要否情報に基づいて、再生音源の音量の上下動を制御する。
 (動作例)
 以下では、図6のステップS3において再生音を再生し、音量尤度情報に基づいて、再生音の音量を変更する処理を説明する。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。
 図10は、フェードイン制御を行う場合のサーバ1の再生音量制御手順と処理内容の一例を示すフローチャートである。音量上昇/下降制限部113は、音量の下降を受け付けず、音量の上昇のみの制御を行う。
 音源再生部112は、ステップS11と同様に、再生音源を再生する(ステップS21)。
 音量変更部111は、ステップS12と同様に、再生音が終端に到着したか否かを判定する(ステップS22)。音量変更部111により、再生音が終端に到着したと判定された場合(ステップS22:YES)、処理は、終了する。音量変更部111により、再生音が終端に到着していないと判定された場合(ステップS22:NO)、処理は、ステップS22からステップS23へ遷移する。
 音量状態変更部110は、ステップS13と同様に、音量尤度情報が「1」を示すか否かを判定する(ステップS23)。音量状態変更部110により、音量尤度情報が「1」を示すと判定された場合(ステップS23:YES)、処理は、ステップS23からステップS24へ遷移する。音量状態変更部110により、音量尤度情報が「1」を示さないと判定された場合(ステップS23:NO)、処理は、ステップS23からステップS21へ遷移する。
 音量変更部111は、ステップS14と同様に、再生音源の音量を上げる(ステップS24)。なお、再生音源の音量状態が「最大」である場合、音量状態変更部110は、音声状態を「最大」で維持し、音量変更部111は、歓声音の音量を「最大音量」で維持してもよい。
 図11は、フェードアウト制御を行う場合のサーバ1の再生音量制御手順と処理内容の一例を示すフローチャートである。音量上昇/下降制限部113は、音量の上昇を受け付けず、音量の下降のみの制御を行う。
 音源再生部112は、ステップS11と同様に、再生音源を再生する(ステップS31)。
 音量変更部111は、ステップS12と同様に、再生音が終端に到着したか否かを判定する(ステップS32)。音量変更部111により、再生音が終端に到着したと判定された場合(ステップS32:YES)、処理は、終了する。音量変更部111により、再生音が終端に到着していないと判定された場合(ステップS32:NO)、処理は、ステップS32からステップS33へ遷移する。
 音量状態変更部110は、ステップS13と同様に、音量尤度情報が「1」を示すか否かを判定する(ステップS33)。音量状態変更部110により、音量尤度情報が「1」を示すと判定された場合(ステップS33:YES)、処理は、ステップS33からステップS31へ遷移する。音量状態変更部110により、音量尤度情報が「1」を示さないと判定された場合(ステップS33:NO)、処理は、ステップS33からステップS34へ遷移する。
 音量変更部111は、ステップS15と同様に、再生音源の音量を下げる(ステップS34)。なお、再生音源の音量状態が「最小」である場合、音量状態変更部110は、音声状態を「最小」で維持し、音量変更部111は、歓声音の音量を「最小音量」で維持してもよい。
 [第2の実施形態] 
 第2の実施形態は、予め尤度に紐づいた参照映像特徴を用意しておき、入力映像から抽出された映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する実施形態である。尤度は、盛り上がり尤度を含む。第2の実施形態では、サーバ1は、盛り上がり尤度を使用し、再生音量の制御を行う。第2の実施形態は、盛り上がり尤度の決定処理を除く他の処理は、第1の実施形態と同様であるため、説明を省略する。盛り上がり尤度は、音量尤度情報の一例である。
 (構成例) 
 第2の実施形態では、第1の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第2の実施形態では、主として、第1の実施形態と異なる部分について説明する。
 図12は、第2の実施形態に係る再生音量制御システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。 
 サーバ1は、音量状態変更部110、音量変更部111、音源再生部112、入力映像特徴抽出部114、参照映像特徴蓄積部115、尤度計算部116、及び音量状態記憶部130を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。音量状態記憶部130は、データ記憶部13によって実現される。
 入力映像特徴抽出部114は、入力映像から入力映像特徴を抽出する。入力映像は、例えば、図3に示すような、5×5のマトリックス状の映像を含む。入力映像は、例えば、複数のリモート観客の映像を含む。入力映像は、図4に示すようなイベント会場の群衆の映像を含んでもよい。入力映像特徴は、入力映像に見られる特徴である。入力映像特徴は、例えば、入力映像に含まれる人の動き、物、人の表情等を含む。入力映像が観客の映像である場合、入力映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含む。入力映像特徴は、ペンライト、タオル等の物を含んでもよい。入力映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。入力映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きは、盛り上がりを示す。
 参照映像特徴蓄積部115は、予め再生音源に紐づけられた映像から抽出した参照特徴を蓄積する。例えば、再生音源が歓声音である場合について説明する。参照映像特徴蓄積部115は、予め歓声音に紐づけられた参照映像から参照特徴を抽出する。参照映像は、例えば、観客の映像である。観客の映像は、盛り上がりのある観客の映像、盛り上がりのない観客の映像等を含む。再生音源がリモート観客の歓声音である場合、参照映像は、リモート観客の映像であってもよい。参照特徴は、参照映像に見られる特徴である。参照特徴は、参照映像特徴を含む。参照映像特徴は、例えば、参照映像に含まれる人の動き、物、人の表情等を含む。参照映像が観客の映像である場合、参照映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含む。参照映像特徴は、ペンライト、タオル等の物を含んでもよい。参照映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。参照映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きを示す参照映像特徴は、盛り上がりを示す。盛り上がりのある観客の映像の参照映像特徴は、例えば、ペンライトを振る動きである。盛り上がりのない観客の映像の参照映像特徴は、例えば、ペンライトを持っていないことである。
 参照映像特徴は、尤度と紐づけられている。尤度は、例えば、盛り上がりの程度を示す盛り上がり尤度を含む。盛り上がり尤度は、例えば、「0」、「1」等の数値である。例えば、盛り上がり尤度「0」は、盛り上がりがない状態を示す。盛り上がり尤度「1」は、盛り上がりがある状態を示す。例えば、盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「0」と紐づけられている。参照映像特徴蓄積部115は、参照特徴蓄積部の一例である。
 音量状態変更部110は、入力映像特徴と参照映像特徴とを照合する。音量状態変更部110は、後述する尤度計算部116により算出される盛り上がり尤度に基づいて、音源の音量状態を変更する。
 尤度計算部116は、入力映像特徴と参照映像特徴との照合の結果に基づいて、入力映像特徴と参照映像特徴との距離、又は類似度を尤度として算出する。尤度は、例えば、盛り上がり尤度を含む。尤度計算部116は、入力映像特徴と参照映像特徴との距離が近い場合、盛り上がり尤度を「1」として算出してもよい。尤度計算部116は、入力映像特徴と参照映像特徴との距離が遠い場合、盛り上がり尤度を「0」として算出してもよい。尤度計算部116は、入力映像特徴と参照映像特徴との距離を所定の閾値に基づいて近いか遠いかの判定をしてもよい。尤度計算部116は、入力映像特徴と参照映像特徴との類似度が高い場合、盛り上がり尤度を「1」として算出してもよい。尤度計算部116は、入力映像特徴と参照映像特徴との類似度が低い場合、盛り上がり尤度を「0」として算出してもよい。尤度計算部116は、入力映像特徴と参照映像特徴との類似度を所定の閾値に基づいて高いか低いかの判定をしてもよい。尤度計算部116は、公知の映像特徴に基づく照合方法を用いて、入力映像特徴と参照映像特徴との照合を行ってもよい。尤度計算部116は、入力映像特徴と参照映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する。尤度計算部116は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する盛り上がり尤度を出力する。
 (動作例) 
 図13は、第2の実施形態に係るサーバ1の尤度決定手順と処理内容の一例を示すフローチャートである。
 以下の処理では、入力映像、参照映像特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末2~2nから取得されるリモート観客の映像であるとする。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。参照映像特徴として、盛り上がりのある観客の映像の参照映像特徴と、盛り上がりのない観客の映像の参照映像特徴が入力される。盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「0」と紐づけられている。例えば、盛り上がりのある観客の映像の参照映像特徴は、ペンライトを振る動きである。
 入力映像特徴抽出部114は、入力映像から入力映像特徴を抽出する(ステップS41)。入力映像が、リモート観客がペンライトを振っている映像である場合について説明する。ステップS41では、例えば、入力映像特徴抽出部114は、入力映像からペンライトを振っているという入力映像特徴を抽出する。
 音量状態変更部110は、参照映像特徴蓄積部115により蓄積された参照特徴を取得する(ステップS42)。ステップS42では、例えば、音量状態変更部110は、盛り上がりのない観客の映像の参照映像特徴と、盛り上がりのある観客の映像の参照映像特徴を取得する。音量状態変更部110は、入力映像特徴と参照映像特徴を照合する。
 尤度計算部116は、入力映像特徴と参照映像特徴との照合の結果に基づいて、盛り上がり尤度を決定する(ステップS43)。ステップS43では、例えば、尤度計算部116は、入力映像特徴と参照映像特徴との距離、又は類似度を盛り上がり尤度として算出する。
 制御部11は、ステップS41~S43の処理を繰り返し、各時刻の盛り上がり尤度を決定する。
 [第3の実施形態] 
 第3の実施形態は、予め尤度に紐づいた参照音特徴を用意しておき、入力映像から抽出された映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する実施形態である。第3の実施形態では、サーバ1は、盛り上がり尤度を使用し、再生音量の制御を行う。第3の実施形態は、盛り上がり尤度の決定処理を除く他の処理は、第1の実施形態と同様であるため、説明を省略する。
 (構成例) 
 第3の実施形態では、第1の実施形態及び第2の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第3の実施形態では、主として、第1の実施形態及び第2の実施形態と異なる部分について説明する。
 図14は、第3の実施形態に係る再生音量制御システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。 
 サーバ1は、音量状態変更部110、音量変更部111、音源再生部112、入力映像特徴抽出部114、参照音特徴蓄積部117、尤度計算部116、及び音量状態記憶部130を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。音量状態記憶部130は、データ記憶部13によって実現される。
 参照音特徴蓄積部117は、予め再生音源に紐づけられた音から抽出した参照特徴を蓄積する。例えば、再生音源が歓声音である場合について説明する。参照音特徴蓄積部117は、予め歓声音に紐づけられた参照音から参照特徴を抽出する。参照音は、例えば、観客の音である。観客の音は、例えば、歓声音である。観客の音は、盛り上がりのある観客の音、盛り上がりのない観客の音等を含む。再生音源がリモート観客の歓声音である場合、参照音は、リモート観客の音であってもよい。参照特徴は、参照音に見られる特徴である。参照特徴は、参照音特徴を含む。参照音特徴は、例えば、参照音に含まれる人の歓声、話し声、周囲の音等を含む。参照音特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、大きな歓声を示す参照音特徴は、盛り上がりを示す。盛り上がりのある観客の音の参照音特徴は、例えば、大きな歓声である。盛り上がりのない観客の音の参照音特徴は、例えば、歓声音がないことである。なお、参照音特徴は、参照映像から抽出されてもよい。
 参照音特徴は、尤度と紐づけられている。尤度は、例えば、盛り上がり尤度を含む。例えば、盛り上がりのある観客の音の参照音特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、盛り上がり尤度「0」と紐づけられている。参照音特徴蓄積部117は、参照特徴蓄積部の一例である。
 音量状態変更部110は、入力映像特徴と参照音特徴とを照合する。音量状態変更部110は、後述する尤度計算部116により算出される盛り上がり尤度に基づいて、音源の音量状態を変更する。音量状態変更部110は、公知の映像特徴に基づく照合方法を用いて、入力映像特徴と参照音特徴との照合を行ってもよい。
 尤度計算部116は、入力映像特徴と参照音特徴との照合の結果に基づいて、入力映像特徴と参照音特徴との距離、又は類似度を尤度として算出する。尤度は、例えば、盛り上がり尤度を含む。尤度計算部116は、入力映像特徴と参照音特徴との距離が近い場合、盛り上がり尤度を「1」として算出してもよい。尤度計算部116は、入力映像特徴と参照音特徴との距離が遠い場合、盛り上がり尤度を「0」として算出してもよい。尤度計算部116は、入力映像特徴と参照音特徴との距離を所定の閾値に基づいて近いか遠いかの判定をしてもよい。尤度計算部116は、入力映像特徴と参照音特徴との類似度が高い場合、盛り上がり尤度を「1」として算出してもよい。尤度計算部116は、入力映像特徴と参照音特徴との類似度が低い場合、盛り上がり尤度を「0」として算出してもよい。尤度計算部116は、入力映像特徴と参照音特徴との類似度を所定の閾値に基づいて高いか低いかの判定をしてもよい。尤度計算部116は、入力映像特徴と参照音特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する。尤度計算部116は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する盛り上がり尤度を出力する。
 (動作例) 
 図15は、第3の実施形態に係るサーバ1の尤度決定手順と処理内容の一例を示すフローチャートである。
 以下の処理では、入力映像、参照映像特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末2~2nから取得されるリモート観客の映像であるとする。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。参照音特徴として、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴が入力される。盛り上がりのある観客の音の参照音特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、盛り上がり尤度「0」と紐づけられている。例えば、盛り上がりのある観客の映像の参照音特徴は、大きな歓声である。
 入力映像特徴抽出部114は、ステップS41と同様に、入力映像から入力映像特徴を抽出する(ステップS51)。
 音量状態変更部110は、参照映像特徴蓄積部115により蓄積された参照特徴を取得する(ステップS52)。ステップS52では、例えば、音量状態変更部110は、盛り上がりのない観客の音の参照音特徴と、盛り上がりのある観客の音の参照音特徴を取得する。音量状態変更部110は、入力映像特徴と参照音特徴を照合する。
 尤度計算部116は、入力映像特徴と参照音特徴との照合の結果に基づいて、盛り上がり尤度を決定する(ステップS53)。ステップS53では、例えば、尤度計算部116は、入力映像特徴と参照音特徴との距離、又は類似度を盛り上がり尤度として算出する。
 制御部11は、ステップS41~S43の処理を繰り返し、各時刻の盛り上がり尤度を決定する。
 [第4の実施形態] 
 第4の実施形態は、予め尤度に紐づいた参照映像特徴及び参照音特徴を用意しておき、入力映像から抽出された映像特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する実施形態である。第4の実施形態では、映像からの検索と音からの検索の両方を行って冗長化を行う。冗長化の方法は、例えば、参照映像特徴と参照音特徴の各々の照合から得られた尤度の大きい方を採用するようなことが考えられる。第4の実施形態では、サーバ1は、盛り上がり尤度を使用し、再生音量の制御を行う。第4の実施形態は、盛り上がり尤度の決定処理を除く他の処理は、第1の実施形態と同様であるため、説明を省略する。
 (構成例) 
 第4の実施形態では、第1の実施形態から第3の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第2の実施形態では、主として、第1の実施形態から第3の実施形態と異なる部分について説明する。
 図16は、第4の実施形態に係る再生音量制御システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。 
 サーバ1は、音量状態変更部110、音量変更部111、音源再生部112、入力映像特徴抽出部114、参照映像特徴蓄積部115、参照音特徴蓄積部117、尤度計算部116、及び音量状態記憶部130を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。音量状態記憶部130は、データ記憶部13によって実現される。
 音量状態変更部110は、入力映像特徴と参照映像特徴とを照合する。音量状態変更部110は、入力映像特徴と参照音特徴とを照合する。音量状態変更部110は、後述する尤度計算部116により算出される盛り上がり尤度に基づいて、音源の音量状態を変更する。
 尤度計算部116は、入力映像特徴と参照映像特徴との照合の結果、及び入力映像特徴と参照音特徴との照合の結果に基づいて、入力映像特徴と参照特徴との距離、又は類似度を尤度として算出する。尤度は、例えば、盛り上がり尤度を含む。尤度計算部116は、入力映像特徴と参照映像特徴との照合の結果、及び入力映像特徴と参照音特徴との照合の結果から得られた盛り上がり尤度のうち大きい方を盛り上がり尤度として算出してもよい。尤度計算部116は、入力映像特徴と参照特徴との照合を繰り返して、各時刻の盛り上がり尤度を決定する。尤度計算部116は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する盛り上がり尤度を出力する。
 (動作例) 
 図17は、第4の実施形態に係るサーバ1の尤度決定手順と処理内容の一例を示すフローチャートである。
 以下の処理では、入力映像、参照映像特徴、参照音特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末2~2nから取得されるリモート観客の映像であるとする。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。参照映像特徴として、盛り上がりのある観客の映像の参照映像特徴と、盛り上がりのない観客の映像の参照映像特徴が入力される。盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「0」と紐づけられている。例えば、盛り上がりのある観客の映像の参照映像特徴は、ペンライトを振る動きである。参照音特徴として、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴が入力される。盛り上がりのある観客の音の参照音特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、盛り上がり尤度「0」と紐づけられている。例えば、盛り上がりのある観客の映像の参照音特徴は、大きな歓声である。
 入力映像特徴抽出部114は、ステップS41と同様に、入力映像から入力映像特徴を抽出する(ステップS61)。
 音量状態変更部110は、参照映像特徴蓄積部115により蓄積された参照特徴を取得する(ステップS62)。ステップS62では、例えば、音量状態変更部110は、盛り上がりのない観客の映像の参照映像特徴と、盛り上がりのある観客の映像の参照映像特徴を取得する。音量状態変更部110は、盛り上がりのない観客の音の参照音特徴と、盛り上がりのある観客の音の参照音特徴を取得する。音量状態変更部110は、入力映像特徴と参照映像特徴を照合する。音量状態変更部110は、入力映像特徴と参照音特徴を照合する。
 尤度計算部116は、入力映像特徴と参照特徴との照合の結果に基づいて、盛り上がり尤度を決定する(ステップS63)。ステップS63では、例えば、尤度計算部116は、ステップS42と同様に、入力映像特徴と参照映像特徴との距離、又は類似度を盛り上がり尤度として算出する。尤度計算部116は、ステップS53と同様に、例入力映像特徴と参照音特徴との距離、又は類似度を盛り上がり尤度として算出する。尤度計算部116は、入力映像特徴と参照映像特徴との照合の結果に基づき算出された盛り上がり尤度と、入力映像特徴と参照音特徴との照合の結果に基づき算出された盛り上がり尤度のうち、大きい方を盛り上がり尤度として決定してもよい。
 制御部11は、ステップS61~S63の処理を繰り返し、各時刻の盛り上がり尤度を決定する。
 イベント会場において群衆の映像を撮影する方法について説明する。 
 図18は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。 
 図18に示すように、イベント会場内に設置されたカメラにより会場内の群衆を撮影する。会場内のカメラにより例えば、図4に示すような群衆の映像が撮影される。例えば、会場内のカメラは、会場のステージ側に設置され、客席側を撮影するように設置される。会場内のカメラは、1つに限られず、複数個設置されてもよい。群衆の映像は、少なくとも1つのカメラにより撮影された映像から選択される映像であってもよい。
 (効果)
 上述の実施形態では、サーバ1は、音量尤度情報に基づいて音源の音量状態を変更し、音量状態を記憶し、音量状態に基づいて音源の音量を変更し、音源を変更した音量で再生することができる。そのため、サーバ1は、音量尤度情報に応じた音量で音源を再生することができる。これにより、サーバ1は、イベント会場等において、所望の演出に応じた音量で選択した音源を再生することができる。このように、サーバ1は、映像に関連する音を、音量を制御して再生することができる。
 上述の実施形態では、サーバ1は、入力映像から入力映像特徴を抽出し、予め音源に紐づけられた映像、又は音の少なくとも一方から抽出した参照音特徴又は参照映像特徴を含む参照特徴を蓄積することができる。また、サーバ1は、入力映像特徴と参照音特徴又は参照映像特徴の少なくとも一方とを照合することができる。さらに、サーバ1は、照合の結果に基づいて、距離、又は類似度を尤度として算出することができる。 
 そのため、サーバ1は、入力映像特徴と参照音特徴又は参照映像特徴の少なくとも一方を照合することにより得られる尤度に基づいて、音源の音量を変更し、変更した音量で音源を再生することができる。これにより、サーバ1は、入力映像と関連する参照特徴に紐づけられた尤度に基づいて、音源の音量を変更することができる。このように、サーバ1は、映像に関連する音を、映像の特徴に即した音量に制御して再生することができる。
 上述の実施形態では、サーバ1は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力することができる。そのため、サーバ1は、入力映像と最も関連する参照特徴に紐づけられた尤度に基づいて、音源の音量を変更することができる。このように、サーバ1は、映像に関連する音を、映像の特徴により即した音量に制御して再生することができる。
 なお、第2の実施形態、第3の実施形態、及び第4の実施形態では、尤度決定を尤度に紐づいた音または映像の参照特徴を使用し、入力映像特徴に最も近い参照特徴に対応する尤度としたが、入力映像特徴と参照特徴との距離や類似度を尤度としてもよい。
 [その他の実施形態] 
 再生音量制御装置は、上記の例で説明したように1つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。
 プログラムは、電子機器に記憶された状態で譲渡されてよいし、電子機器に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、CD-ROM、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。
 以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
 上述の実施形態は、電子機器だけでなく、電子機器が実行する方法に適用されてもよい。上述の実施形態は、電子機器が備える各部の処理をコンピュータに実行させることが可能なプログラムに適用されてもよい。
 1 サーバ
 2~2n 観客用端末
 11 制御部
 12 プログラム記憶部
 13 データ記憶部
 14 通信インタフェース
 15 入出力インタフェース
 101 音声出力装置
 102 映像出力装置
 110 音量状態変更部
 111 音量変更部
 112 音源再生部
 113 下降制限部
 114 入力映像特徴抽出部
 115 参照映像特徴蓄積部
 116 尤度計算部
 117 参照音特徴蓄積部
 130 音量状態記憶部
 S 再生音量制御システム

Claims (7)

  1.  音量尤度情報に基づいて音源の音量状態を変更する音量状態変更過程と、
     前記音量状態を記憶する音量状態記憶過程と、
     前記音量状態に基づいて前記音源の音量を変更する音量変更過程と、
     前記音源を前記音量で再生する音源再生過程と、
     を備える、再生音量制御方法。
  2.  入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、
     予め前記音源に紐づけられた映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、
     をさらに備える、請求項1に記載の再生音量制御方法。
  3.  前記参照特徴は、参照音特徴又は参照映像特徴を含み、
     前記音量状態変更過程は、前記入力映像特徴と前記参照音特徴又は前記参照映像特徴の少なくとも一方とを照合する、
     請求項2に記載の再生音量制御方法。
  4.  前記照合の結果に基づいて、距離、又は類似度を尤度として算出する尤度計算過程をさらに備える、
     請求項3に記載の再生音量制御方法。
  5.  前記尤度計算過程は、入力映像特徴と尤度に紐付いた参照特徴との照合の結果に基づいて、最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力する、
     請求項4に記載の再生音量制御方法。
  6.  音量尤度情報に基づいて音源の音量状態を変更する音量状態変更部と、
     前記音量状態を記憶する音量状態記憶部と、
     前記音量状態に基づいて前記音源の音量を変更する音量変更部と、
     前記音源を前記音量で再生する音源再生部と、
     を備える、再生音量制御装置。
  7.  コンピュータに、
     音量尤度情報に基づいて音源の音量状態を変更することと、
     前記音量状態を記憶することと、
     前記音量状態に基づいて前記音源の音量を変更することと、
     前記音源を前記音量で再生することと、
     を実行させるための再生音量制御プログラム。
PCT/JP2022/032861 2022-08-31 2022-08-31 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム WO2024047814A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032861 WO2024047814A1 (ja) 2022-08-31 2022-08-31 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032861 WO2024047814A1 (ja) 2022-08-31 2022-08-31 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム

Publications (1)

Publication Number Publication Date
WO2024047814A1 true WO2024047814A1 (ja) 2024-03-07

Family

ID=90098971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032861 WO2024047814A1 (ja) 2022-08-31 2022-08-31 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム

Country Status (1)

Country Link
WO (1) WO2024047814A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012220547A (ja) * 2011-04-05 2012-11-12 Sony Corp 音量制御装置、音量制御方法およびコンテンツ再生システム
JP2016144192A (ja) * 2015-02-05 2016-08-08 日本放送協会 盛り上がり通知システム
JP2021197614A (ja) * 2020-06-12 2021-12-27 株式会社コナミデジタルエンタテインメント 映像配信システム、それに用いるコンピュータプログラム、及び制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012220547A (ja) * 2011-04-05 2012-11-12 Sony Corp 音量制御装置、音量制御方法およびコンテンツ再生システム
JP2016144192A (ja) * 2015-02-05 2016-08-08 日本放送協会 盛り上がり通知システム
JP2021197614A (ja) * 2020-06-12 2021-12-27 株式会社コナミデジタルエンタテインメント 映像配信システム、それに用いるコンピュータプログラム、及び制御方法

Similar Documents

Publication Publication Date Title
JPWO2018096954A1 (ja) 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2014082582A (ja) 視聴装置、コンテンツ提供装置、視聴プログラム、及びコンテンツ提供プログラム
US20170092253A1 (en) Karaoke system
JP2008286912A (ja) カラオケシステム
JP4804465B2 (ja) 録画装置
JP2002091291A (ja) ピアノ教授用データ通信システム
JP5713048B2 (ja) カラオケシステム
WO2024047814A1 (ja) 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム
WO2024047815A1 (ja) 盛り上がり尤度制御方法、盛り上がり尤度制御装置及び盛り上がり尤度制御プログラム
WO2024047816A1 (ja) 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム
JP6196839B2 (ja) 通信デュエット時における音声等の切換処理に特徴を有する通信カラオケシステム
WO2014203870A1 (ja) 演奏システム、演奏方法及び演奏プログラム
Bennett Fandom, liveness and technology at Tori Amos music concerts: Examining the movement of meaning within social media use
JP7480846B2 (ja) 応援支援方法、応援支援装置、およびプログラム
JP7153143B2 (ja) 映像提供システムおよびプログラム
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
CN113535116A (zh) 音频文件的播放方法、装置、终端及存储介质
JP2020008752A (ja) 生バンドカラオケライブ配信システム
WO2023238637A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2024053094A1 (ja) メディア情報強調再生装置、メディア情報強調再生方法、およびメディア情報強調再生プログラム
WO2024047813A1 (ja) 音響情報出力制御装置、方法およびプログラム
Pareles Intimacy Is Overrated: Concerts in the Livestream Era.
WO2024127565A1 (ja) 表示映像選択装置、表示映像選択方法及び表示映像選択プログラム
WO2024052964A1 (ja) 映像同期装置、映像同期方法及び映像同期プログラム
WO2023120244A1 (ja) 伝送装置、伝送方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957411

Country of ref document: EP

Kind code of ref document: A1